論文の概要: Aerial Image Object Detection With Vision Transformer Detector (ViTDet)
- arxiv url: http://arxiv.org/abs/2301.12058v1
- Date: Sat, 28 Jan 2023 02:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:24:52.454964
- Title: Aerial Image Object Detection With Vision Transformer Detector (ViTDet)
- Title(参考訳): Vision Transformer Detector (ViTDet) を用いた空中物体検出
- Authors: Liya Wang, Alex Tien
- Abstract要約: Vision Transformer Detector (ViTDet) はオブジェクト検出のためのマルチスケール特徴を抽出するために提案されている。
ViTDetのシンプルな設計は、自然のシーン画像に優れた性能を実現し、どんな検出器アーキテクチャにも簡単に組み込むことができる。
以上の結果から,VTDetは水平バウンディングボックス(HBB)オブジェクト検出において,畳み込みニューラルネットワークよりも一貫して優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past few years have seen an increased interest in aerial image object
detection due to its critical value to large-scale geo-scientific research like
environmental studies, urban planning, and intelligence monitoring. However,
the task is very challenging due to the birds-eye view perspective, complex
backgrounds, large and various image sizes, different appearances of objects,
and the scarcity of well-annotated datasets. Recent advances in computer vision
have shown promise tackling the challenge. Specifically, Vision Transformer
Detector (ViTDet) was proposed to extract multi-scale features for object
detection. The empirical study shows that ViTDet's simple design achieves good
performance on natural scene images and can be easily embedded into any
detector architecture. To date, ViTDet's potential benefit to challenging
aerial image object detection has not been explored. Therefore, in our study,
25 experiments were carried out to evaluate the effectiveness of ViTDet for
aerial image object detection on three well-known datasets: Airbus Aircraft,
RarePlanes, and Dataset of Object DeTection in Aerial images (DOTA). Our
results show that ViTDet can consistently outperform its convolutional neural
network counterparts on horizontal bounding box (HBB) object detection by a
large margin (up to 17% on average precision) and that it achieves the
competitive performance for oriented bounding box (OBB) object detection. Our
results also establish a baseline for future research.
- Abstract(参考訳): 近年、環境研究、都市計画、情報監視といった大規模な地球科学的研究に重要な価値があるため、空中画像検出への関心が高まっている。
しかし、鳥眼の視点、複雑な背景、大きく様々な画像サイズ、異なるオブジェクトの外観、そしてよく注釈されたデータセットの不足のため、この課題は非常に難しい。
コンピュータビジョンの最近の進歩は、挑戦に取り組むことを約束している。
特に視覚トランスフォーマー検出器 (vitdet) は, 物体検出のためのマルチスケール特徴を抽出するために提案されている。
実験的な研究により、ViTDetのシンプルな設計は自然のシーン画像に優れた性能を発揮し、どんな検出器アーキテクチャにも容易に組み込めることを示した。
これまでのところ、航空画像の物体検出に挑戦するヴィットーの潜在的な利点は探求されていない。
そこで本研究では,Airbus Aircraft,RarePlanes,Dataset of Object DeTection in Aerial Image (DOTA)の3つのよく知られたデータセットに対して,VTDetの有効性を評価するために25の実験を行った。
以上の結果から,VTDetは水平有界箱(HBB)オブジェクト検出において,その畳み込みニューラルネットワークよりも高い精度(平均精度で最大17%)を実現し,指向性有界箱(OBB)オブジェクト検出の競合性能を達成できることが示唆された。
今後の研究のベースラインも確立しています。
関連論文リスト
- Analysis of Object Detection Models for Tiny Object in Satellite Imagery: A Dataset-Centric Approach [0.0]
本稿では,衛星画像におけるSOD(Small-Object-Detection)の領域について述べる。
従来のオブジェクト検出モデルは、コンテキスト情報やクラス不均衡が限られたため、小さなオブジェクトを検出するのに困難に直面している。
本研究の目的は,衛星画像における微小物体検出に関する貴重な知見を,最先端のモデルを用いて実証的に評価することである。
論文 参考訳(メタデータ) (2024-12-12T07:06:22Z) - Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - NBBOX: Noisy Bounding Box Improves Remote Sensing Object Detection [11.564184330068775]
本文では,リモートセンシング物体検出のための拡張,回転,翻訳の観点から,境界ボックス変換の徹底的な検討を行う。
DOTAとDIOR-Rはどちらもよく知られたデータセットであり、空中画像に様々な回転するジェネリックオブジェクトを含む。
実験結果から,提案手法はホイッスルやベルを使わずにリモートセンシング対象の検出を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-09-14T12:25:14Z) - FlightScope: An Experimental Comparative Review of Aircraft Detection Algorithms in Satellite Imagery [2.9687381456164004]
本稿では,衛星画像中の航空機を識別するタスク用にカスタマイズされた,高度な物体検出アルゴリズム群を批判的に評価し,比較する。
この研究は、YOLOバージョン5と8、より高速なRCNN、CenterNet、RetinaNet、RTMDet、DETRを含む一連の方法論を含む。
YOLOv5は空中物体検出のための堅牢なソリューションとして登場し、平均的精度、リコール、ユニオンのスコアに対するインターセクションによってその重要性を裏付けている。
論文 参考訳(メタデータ) (2024-04-03T17:24:27Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Aerial Monocular 3D Object Detection [67.20369963664314]
DVDETは2次元画像空間と3次元物理空間の両方で空中単分子3次元物体検出を実現するために提案される。
高度視差変形問題に対処するため,新しい測地変形変換モジュールを提案する。
より多くの研究者がこの領域を調査するよう促すため、データセットと関連するコードをリリースします。
論文 参考訳(メタデータ) (2022-08-08T08:32:56Z) - Object Detection in Aerial Images: What Improves the Accuracy? [9.857292888257144]
空中画像における物体検出問題に対して,ディープラーニングに基づく物体検出手法が積極的に研究されている。
本研究では,空中物体検出におけるFaster R-CNNの影響について検討し,航空画像の性能向上のための数多くの戦略を探求する。
論文 参考訳(メタデータ) (2022-01-21T16:22:48Z) - Object Detection in Aerial Images: A Large-Scale Benchmark and
Challenges [124.48654341780431]
航空画像(DOTA)におけるオブジェクトデテクションの大規模データセットとODAIの総合的ベースラインについて述べる。
提案するDOTAデータセットは,11,268個の空中画像から収集した18カテゴリのオブジェクト指向ボックスアノテーションの1,793,658個のオブジェクトインスタンスを含む。
70以上の構成を持つ10の最先端アルゴリズムをカバーするベースラインを構築し,各モデルの速度と精度を評価した。
論文 参考訳(メタデータ) (2021-02-24T11:20:55Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z) - EAGLE: Large-scale Vehicle Detection Dataset in Real-World Scenarios
using Aerial Imagery [3.8902657229395894]
航空画像における物体方向情報を用いた多種多様な車両検出のための大規模データセットを提案する。
様々なカメラセンサー、解像度、飛行高度、天候、照明、ヘイズ、シャドウ、時間、都市、国、オクルージョン、カメラアングルを備えた、さまざまな現実世界の状況からなる高解像度の空中画像が特徴である。
215,986のインスタンスに4つのポイントと向きで定義された向き付きバウンディングボックスがアノテートされており、このタスクでこれまでで最大のデータセットとなっている。
また、ヘイズやシャドウ除去の研究や、超高解像度やインペイントの応用も支援している。
論文 参考訳(メタデータ) (2020-07-12T23:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。