論文の概要: OVA-DETR: Open Vocabulary Aerial Object Detection Using Image-Text Alignment and Fusion
- arxiv url: http://arxiv.org/abs/2408.12246v1
- Date: Thu, 22 Aug 2024 09:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:33:24.957464
- Title: OVA-DETR: Open Vocabulary Aerial Object Detection Using Image-Text Alignment and Fusion
- Title(参考訳): OVA-DETR:画像テキストアライメントと融合を用いたオープンボキャブラリ空中物体検出
- Authors: Guoting Wei, Xia Yuan, Yu Liu, Zhenhao Shang, Kelu Yao, Chao Li, Qingsen Yan, Chunxia Zhao, Haokui Zhang, Rong Xiao,
- Abstract要約: 航空画像のための高速開語彙検出器OVA-DETRを提案する。
画像テキストアライメントの考え方に基づいて、カテゴリ回帰損失を置き換えるために、領域テキストコントラスト損失を提案する。
Bi-VLFにはデュアルアテンションフュージョンエンコーダとマルチレベルテキスト誘導フュージョンデコーダが含まれる。
- 参考スコア(独自算出の注目度): 16.784704103995672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial object detection has been a hot topic for many years due to its wide application requirements. However, most existing approaches can only handle predefined categories, which limits their applicability for the open scenarios in real-world. In this paper, we extend aerial object detection to open scenarios by exploiting the relationship between image and text, and propose OVA-DETR, a high-efficiency open-vocabulary detector for aerial images. Specifically, based on the idea of image-text alignment, we propose region-text contrastive loss to replace the category regression loss in the traditional detection framework, which breaks the category limitation. Then, we propose Bidirectional Vision-Language Fusion (Bi-VLF), which includes a dual-attention fusion encoder and a multi-level text-guided Fusion Decoder. The dual-attention fusion encoder enhances the feature extraction process in the encoder part. The multi-level text-guided Fusion Decoder is designed to improve the detection ability for small objects, which frequently appear in aerial object detection scenarios. Experimental results on three widely used benchmark datasets show that our proposed method significantly improves the mAP and recall, while enjoying faster inference speed. For instance, in zero shot detection experiments on DIOR, the proposed OVA-DETR outperforms DescReg and YOLO-World by 37.4% and 33.1%, respectively, while achieving 87 FPS inference speed, which is 7.9x faster than DescReg and 3x faster than YOLO-world. The code is available at https://github.com/GT-Wei/OVA-DETR.
- Abstract(参考訳): 広範囲のアプリケーション要件のため、空中オブジェクト検出は長年にわたってホットな話題となっている。
しかし、既存のほとんどのアプローチは、定義済みのカテゴリのみを扱うことができ、現実世界のオープンシナリオの適用性を制限することができる。
本稿では, 画像とテキストの関係を利用して, 航空物体の検出を開放シナリオにまで拡張し, 航空画像の高精度オープンボキャブラリ検出器であるOVA-DETRを提案する。
具体的には、画像テキストアライメントの考え方に基づいて、従来の検出フレームワークにおけるカテゴリ回帰損失を置き換えるために、領域テキストコントラスト損失を提案する。
次に,双方向ビジョン・ランゲージ・フュージョン (Bidirectional Vision-Language Fusion, Bi-VLF) を提案する。
デュアルアテンション融合エンコーダは、エンコーダ部の特徴抽出プロセスを強化する。
マルチレベルテキスト誘導型フュージョンデコーダは、空中物体検出シナリオに頻繁に現れる小さな物体の検出能力を改善するように設計されている。
提案手法は,より高速な推論速度を保ちながら,mAPとリコールを大幅に改善することを示す。
例えば、DIOR上のゼロショット検出実験では、提案されたOVA-DETRは、それぞれDescRegとYOLO-Worldを37.4%、33.1%上回り、87 FPS推論速度はDescRegより7.9倍、YOLO-Worldより3倍速い。
コードはhttps://github.com/GT-Wei/OVA-DETRで公開されている。
関連論文リスト
- DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Zero-Shot Aerial Object Detection with Visual Description Regularization [15.14310599469107]
本稿では,視覚的記述規則化(DescReg)と呼ばれる空中物体検出のためのゼロショット手法を提案する。
航空物体の弱い意味的・視覚的相関を同定し,その視覚的外観を事前に記述した上で,課題に対処することを目的とする。
我々は、DIOR、xView、DOTAを含む3つの挑戦的空中物体検出データセットを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-02-28T10:58:01Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - UT-Net: Combining U-Net and Transformer for Joint Optic Disc and Cup
Segmentation and Glaucoma Detection [0.0]
緑内障は慢性の視覚疾患であり、永久的な不可逆性視覚障害を引き起こす可能性がある。
緑内障の早期発見には,カップ・ツー・ディスク比(CDR)の測定が重要な役割を担っている。
我々はUT-Netと呼ばれる新しいセグメンテーションパイプラインを提案し、U-Netとトランスフォーマーの双方の利点をエンコーディング層で利用し、次にアテンションゲートバイ線形融合方式を提案する。
論文 参考訳(メタデータ) (2023-03-08T23:21:19Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z) - SemanticVoxels: Sequential Fusion for 3D Pedestrian Detection using
LiDAR Point Cloud and Semantic Segmentation [4.350338899049983]
我々は、異なるレベルで融合を適用できるように、PointPaintingの一般化を提案する。
本研究では,セマンティックボクセルが3次元および鳥の視線歩行者検出ベンチマークにおいて,最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-09-25T14:52:32Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。