論文の概要: Improving Detection in Aerial Images by Capturing Inter-Object Relationships
- arxiv url: http://arxiv.org/abs/2404.04140v1
- Date: Fri, 5 Apr 2024 14:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 15:45:42.557033
- Title: Improving Detection in Aerial Images by Capturing Inter-Object Relationships
- Title(参考訳): 物体間関係のキャプチャによる空中画像の検出改善
- Authors: Botao Ren, Botian Xu, Yifan Pu, Jingyi Wang, Zhidong Deng,
- Abstract要約: シーン内の物体の空間分布は、意味的な関係によって支配される意味のあるパターンを示す。
本研究では,これらのオブジェクト間の関係を捉えるためのトランスフォーマーベースのアプローチを提案する。
空間的および幾何学的関係は、注意重みに組み込まれ、適応的に変調および正規化される。
- 参考スコア(独自算出の注目度): 7.729994373861261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many image domains, the spatial distribution of objects in a scene exhibits meaningful patterns governed by their semantic relationships. In most modern detection pipelines, however, the detection proposals are processed independently, overlooking the underlying relationships between objects. In this work, we introduce a transformer-based approach to capture these inter-object relationships to refine classification and regression outcomes for detected objects. Building on two-stage detectors, we tokenize the region of interest (RoI) proposals to be processed by a transformer encoder. Specific spatial and geometric relations are incorporated into the attention weights and adaptively modulated and regularized. Experimental results demonstrate that the proposed method achieves consistent performance improvement on three benchmarks including DOTA-v1.0, DOTA-v1.5, and HRSC 2016, especially ranking first on both DOTA-v1.5 and HRSC 2016. Specifically, our new method has an increase of 1.59 mAP on DOTA-v1.0, 4.88 mAP on DOTA-v1.5, and 2.1 mAP on HRSC 2016, respectively, compared to the baselines.
- Abstract(参考訳): 多くの画像領域において、シーン内のオブジェクトの空間分布は、意味的な関係によって支配される意味のあるパターンを示す。
しかし、現代のほとんどの検出パイプラインでは、検出提案は独立して処理され、オブジェクト間の基盤となる関係を見渡せる。
本研究では,これらのオブジェクト間の関係を捕捉し,検出対象の分類と回帰結果を洗練するためのトランスフォーマーに基づくアプローチを提案する。
2段階検出器上に構築し、変換器エンコーダによって処理される関心領域(RoI)の提案をトークン化する。
空間的および幾何学的関係は、注意重みに組み込まれ、適応的に変調および正規化される。
実験結果から,DOTA-v1.0,DOTA-v1.5,HRSC 2016の3つのベンチマークで一貫した性能向上が得られた。
具体的には, DOTA-v1.0では1.59 mAP, DOTA-v1.5では4.88 mAP, HRSC 2016では2.1 mAPの増加がみられた。
関連論文リスト
- LP-DETR: Layer-wise Progressive Relations for Object Detection [4.632366780742503]
LP-DETR(Layer-wise Progressive DETR)は,DTRに基づくオブジェクト検出を多スケール関係モデリングにより拡張する手法である。
本稿では,オブジェクトクエリ間の学習可能な空間関係を,関係認識型自己認識機構を通じて導入する。
論文 参考訳(メタデータ) (2025-02-07T18:25:28Z) - OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。
これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。
従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文 参考訳(メタデータ) (2024-09-29T10:36:33Z) - Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。
汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-16T13:17:07Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。