論文の概要: Aerial Image Object Detection With Vision Transformer Detector (ViTDet)
- arxiv url: http://arxiv.org/abs/2301.12058v1
- Date: Sat, 28 Jan 2023 02:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:24:52.454964
- Title: Aerial Image Object Detection With Vision Transformer Detector (ViTDet)
- Title(参考訳): Vision Transformer Detector (ViTDet) を用いた空中物体検出
- Authors: Liya Wang, Alex Tien
- Abstract要約: Vision Transformer Detector (ViTDet) はオブジェクト検出のためのマルチスケール特徴を抽出するために提案されている。
ViTDetのシンプルな設計は、自然のシーン画像に優れた性能を実現し、どんな検出器アーキテクチャにも簡単に組み込むことができる。
以上の結果から,VTDetは水平バウンディングボックス(HBB)オブジェクト検出において,畳み込みニューラルネットワークよりも一貫して優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past few years have seen an increased interest in aerial image object
detection due to its critical value to large-scale geo-scientific research like
environmental studies, urban planning, and intelligence monitoring. However,
the task is very challenging due to the birds-eye view perspective, complex
backgrounds, large and various image sizes, different appearances of objects,
and the scarcity of well-annotated datasets. Recent advances in computer vision
have shown promise tackling the challenge. Specifically, Vision Transformer
Detector (ViTDet) was proposed to extract multi-scale features for object
detection. The empirical study shows that ViTDet's simple design achieves good
performance on natural scene images and can be easily embedded into any
detector architecture. To date, ViTDet's potential benefit to challenging
aerial image object detection has not been explored. Therefore, in our study,
25 experiments were carried out to evaluate the effectiveness of ViTDet for
aerial image object detection on three well-known datasets: Airbus Aircraft,
RarePlanes, and Dataset of Object DeTection in Aerial images (DOTA). Our
results show that ViTDet can consistently outperform its convolutional neural
network counterparts on horizontal bounding box (HBB) object detection by a
large margin (up to 17% on average precision) and that it achieves the
competitive performance for oriented bounding box (OBB) object detection. Our
results also establish a baseline for future research.
- Abstract(参考訳): 近年、環境研究、都市計画、情報監視といった大規模な地球科学的研究に重要な価値があるため、空中画像検出への関心が高まっている。
しかし、鳥眼の視点、複雑な背景、大きく様々な画像サイズ、異なるオブジェクトの外観、そしてよく注釈されたデータセットの不足のため、この課題は非常に難しい。
コンピュータビジョンの最近の進歩は、挑戦に取り組むことを約束している。
特に視覚トランスフォーマー検出器 (vitdet) は, 物体検出のためのマルチスケール特徴を抽出するために提案されている。
実験的な研究により、ViTDetのシンプルな設計は自然のシーン画像に優れた性能を発揮し、どんな検出器アーキテクチャにも容易に組み込めることを示した。
これまでのところ、航空画像の物体検出に挑戦するヴィットーの潜在的な利点は探求されていない。
そこで本研究では,Airbus Aircraft,RarePlanes,Dataset of Object DeTection in Aerial Image (DOTA)の3つのよく知られたデータセットに対して,VTDetの有効性を評価するために25の実験を行った。
以上の結果から,VTDetは水平有界箱(HBB)オブジェクト検出において,その畳み込みニューラルネットワークよりも高い精度(平均精度で最大17%)を実現し,指向性有界箱(OBB)オブジェクト検出の競合性能を達成できることが示唆された。
今後の研究のベースラインも確立しています。
関連論文リスト
- Visible and Clear: Finding Tiny Objects in Difference Map [50.54061010335082]
本稿では,検出モデルに自己再構成機構を導入し,それと微小物体との強い相関関係を明らかにする。
具体的には、再構成画像と入力の差分マップを構築して、検出器の首の内側に再構成ヘッドを配置し、小さな物体に対して高い感度を示す。
さらに、小さな特徴表現をより明確にするために、差分マップガイド機能拡張(DGFE)モジュールを開発する。
論文 参考訳(メタデータ) (2024-05-18T12:22:26Z) - FlightScope: A Deep Comprehensive Review of Aircraft Detection Algorithms in Satellite Imagery [2.9687381456164004]
本稿では,衛星画像中の航空機を識別するタスク用にカスタマイズされた,高度な物体検出アルゴリズム群を批判的に評価し,比較する。
この研究は、YOLOバージョン5と8、より高速なRCNN、CenterNet、RetinaNet、RTMDet、DETRを含む一連の方法論を含む。
YOLOv5は空中物体検出のための堅牢なソリューションとして登場し、平均的精度、リコール、ユニオンのスコアに対するインターセクションによってその重要性を裏付けている。
論文 参考訳(メタデータ) (2024-04-03T17:24:27Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - On the Robustness of Object Detection Models in Aerial Images [37.50307094643692]
DOTA-v1.0に基づく新しいベンチマークを2つ導入する。
第1のベンチマークは、19の一般的な汚職を含むが、第2のベンチマークは、クラウド崩壊したイメージに焦点を当てている。
改良されたモデルアーキテクチャ,大規模ネットワーク,高度に構築されたモジュール,および巧妙なデータ拡張戦略により,航空物体検出モデルの堅牢性が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-29T15:16:51Z) - Object Detection in Aerial Images with Uncertainty-Aware Graph Network [61.02591506040606]
本稿では,ノードとエッジがオブジェクトによって表現される構造化グラフを用いた,新しい不確実性を考慮したオブジェクト検出フレームワークを提案する。
我々は我々のモデルをオブジェクトDETection(UAGDet)のための不確実性対応グラフネットワークと呼ぶ。
論文 参考訳(メタデータ) (2022-08-23T07:29:03Z) - Object Detection in Aerial Images: What Improves the Accuracy? [9.857292888257144]
空中画像における物体検出問題に対して,ディープラーニングに基づく物体検出手法が積極的に研究されている。
本研究では,空中物体検出におけるFaster R-CNNの影響について検討し,航空画像の性能向上のための数多くの戦略を探求する。
論文 参考訳(メタデータ) (2022-01-21T16:22:48Z) - Artificial and beneficial -- Exploiting artificial images for aerial
vehicle detection [1.4528189330418975]
本研究では,2次元cad描画から作成した車両を人工的あるいは実際の背景に重ね合わせてトップダウン画像を生成する生成手法を提案する。
修正されたRetinaNetオブジェクト検出ネットワークによる実験では、これらの画像を小さな実世界のデータセットに追加することで、検出パフォーマンスが大幅に向上することを示しています。
論文 参考訳(メタデータ) (2021-04-07T11:06:15Z) - Object Detection in Aerial Images: A Large-Scale Benchmark and
Challenges [124.48654341780431]
航空画像(DOTA)におけるオブジェクトデテクションの大規模データセットとODAIの総合的ベースラインについて述べる。
提案するDOTAデータセットは,11,268個の空中画像から収集した18カテゴリのオブジェクト指向ボックスアノテーションの1,793,658個のオブジェクトインスタンスを含む。
70以上の構成を持つ10の最先端アルゴリズムをカバーするベースラインを構築し,各モデルの速度と精度を評価した。
論文 参考訳(メタデータ) (2021-02-24T11:20:55Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z) - EAGLE: Large-scale Vehicle Detection Dataset in Real-World Scenarios
using Aerial Imagery [3.8902657229395894]
航空画像における物体方向情報を用いた多種多様な車両検出のための大規模データセットを提案する。
様々なカメラセンサー、解像度、飛行高度、天候、照明、ヘイズ、シャドウ、時間、都市、国、オクルージョン、カメラアングルを備えた、さまざまな現実世界の状況からなる高解像度の空中画像が特徴である。
215,986のインスタンスに4つのポイントと向きで定義された向き付きバウンディングボックスがアノテートされており、このタスクでこれまでで最大のデータセットとなっている。
また、ヘイズやシャドウ除去の研究や、超高解像度やインペイントの応用も支援している。
論文 参考訳(メタデータ) (2020-07-12T23:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。