論文の概要: Context-Aware Aerial Object Detection: Leveraging Inter-Object and Background Relationships
- arxiv url: http://arxiv.org/abs/2404.04140v2
- Date: Thu, 28 Nov 2024 12:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:56:02.370385
- Title: Context-Aware Aerial Object Detection: Leveraging Inter-Object and Background Relationships
- Title(参考訳): 文脈認識型空中物体検出:物体間関係と背景関係の活用
- Authors: Botao Ren, Botian Xu, Xue Yang, Yifan Pu, Jingyi Wang, Zhidong Deng,
- Abstract要約: 現代のほとんどのオブジェクト検出パイプラインでは、特徴マップから独立して検出提案が処理される。
本稿では,トランスフォーマーモデルとコントラスト言語-画像事前学習機能の強みを利用するフレームワークを提案する。
DOTA-v1.0 では 1.37 mAP$_50$,DOTA-v1.5 では 5.30 mAP$_50$,DOTA-v2.0 では 2.30 mAP$_50$,DI では 3.23 mAP$_50$ が増加し,新たな最先端結果が得られた。
- 参考スコア(独自算出の注目度): 10.416444779297148
- License:
- Abstract: In most modern object detection pipelines, the detection proposals are processed independently given the feature map. Therefore, they overlook the underlying relationships between objects and the surrounding background, which could have provided additional context for accurate detection. Because aerial imagery is almost orthographic, the spatial relations in image space closely align with those in the physical world, and inter-object and object-background relationships become particularly significant. To address this oversight, we propose a framework that leverages the strengths of Transformer-based models and Contrastive Language-Image Pre-training (CLIP) features to capture such relationships. Specifically, Building on two-stage detectors, we treat Region of Interest (RoI) proposals as tokens, accompanied by CLIP Tokens obtained from multi-level image segments. These tokens are then passed through a Transformer encoder, where specific spatial and geometric relations are incorporated into the attention weights, which are adaptively modulated and regularized. Additionally, we introduce self-supervised constraints on CLIP Tokens to ensure consistency. Extensive experiments on three benchmark datasets demonstrate that our approach achieves consistent improvements, setting new state-of-the-art results with increases of 1.37 mAP$_{50}$ on DOTA-v1.0, 5.30 mAP$_{50}$ on DOTA-v1.5, 2.30 mAP$_{50}$ on DOTA-v2.0 and 3.23 mAP$_{50}$ on DIOR-R.
- Abstract(参考訳): 現代のほとんどのオブジェクト検出パイプラインでは、特徴マップから独立して検出提案が処理される。
そのため、オブジェクトと周囲の背景との間の基礎的な関係を見落とし、正確な検出のための追加のコンテキストを提供することができた。
航空画像はほぼ正方形であるため、画像空間の空間的関係は物理的世界の空間的関係と密接に一致し、物体間関係と物体-背景関係は特に重要となる。
そこで本稿では,TransformerベースのモデルとContrastive Language- Image Pre-Torning (CLIP) 機能を利用するフレームワークを提案する。
具体的には,2段階検出器上に構築し,マルチレベル画像セグメントから得られたCLIPトークンを伴って,関心領域(RoI)提案をトークンとして扱う。
これらのトークンはトランスフォーマーエンコーダに渡され、特定の空間的および幾何学的関係がアテンション重みに組み込まれ、適応的に変調され、規則化される。
さらに,一貫性を確保するために,CLIPトークンに対する自己監督的制約を導入する。
DOTA-v1.0, 5.30 mAP$_{50}$ on DOTA-v1.5, 2.30 mAP$_{50}$ on DOTA-v2.0, 3.23 mAP$_{50}$ on DIOR-R。
関連論文リスト
- LP-DETR: Layer-wise Progressive Relations for Object Detection [4.632366780742503]
LP-DETR(Layer-wise Progressive DETR)は,DTRに基づくオブジェクト検出を多スケール関係モデリングにより拡張する手法である。
本稿では,オブジェクトクエリ間の学習可能な空間関係を,関係認識型自己認識機構を通じて導入する。
論文 参考訳(メタデータ) (2025-02-07T18:25:28Z) - OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。
これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。
従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文 参考訳(メタデータ) (2024-09-29T10:36:33Z) - Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。
汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-16T13:17:07Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。