論文の概要: Improving Detection in Aerial Images by Capturing Inter-Object Relationships
- arxiv url: http://arxiv.org/abs/2404.04140v1
- Date: Fri, 5 Apr 2024 14:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 15:45:42.557033
- Title: Improving Detection in Aerial Images by Capturing Inter-Object Relationships
- Title(参考訳): 物体間関係のキャプチャによる空中画像の検出改善
- Authors: Botao Ren, Botian Xu, Yifan Pu, Jingyi Wang, Zhidong Deng,
- Abstract要約: シーン内の物体の空間分布は、意味的な関係によって支配される意味のあるパターンを示す。
本研究では,これらのオブジェクト間の関係を捉えるためのトランスフォーマーベースのアプローチを提案する。
空間的および幾何学的関係は、注意重みに組み込まれ、適応的に変調および正規化される。
- 参考スコア(独自算出の注目度): 7.729994373861261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many image domains, the spatial distribution of objects in a scene exhibits meaningful patterns governed by their semantic relationships. In most modern detection pipelines, however, the detection proposals are processed independently, overlooking the underlying relationships between objects. In this work, we introduce a transformer-based approach to capture these inter-object relationships to refine classification and regression outcomes for detected objects. Building on two-stage detectors, we tokenize the region of interest (RoI) proposals to be processed by a transformer encoder. Specific spatial and geometric relations are incorporated into the attention weights and adaptively modulated and regularized. Experimental results demonstrate that the proposed method achieves consistent performance improvement on three benchmarks including DOTA-v1.0, DOTA-v1.5, and HRSC 2016, especially ranking first on both DOTA-v1.5 and HRSC 2016. Specifically, our new method has an increase of 1.59 mAP on DOTA-v1.0, 4.88 mAP on DOTA-v1.5, and 2.1 mAP on HRSC 2016, respectively, compared to the baselines.
- Abstract(参考訳): 多くの画像領域において、シーン内のオブジェクトの空間分布は、意味的な関係によって支配される意味のあるパターンを示す。
しかし、現代のほとんどの検出パイプラインでは、検出提案は独立して処理され、オブジェクト間の基盤となる関係を見渡せる。
本研究では,これらのオブジェクト間の関係を捕捉し,検出対象の分類と回帰結果を洗練するためのトランスフォーマーに基づくアプローチを提案する。
2段階検出器上に構築し、変換器エンコーダによって処理される関心領域(RoI)の提案をトークン化する。
空間的および幾何学的関係は、注意重みに組み込まれ、適応的に変調および正規化される。
実験結果から,DOTA-v1.0,DOTA-v1.5,HRSC 2016の3つのベンチマークで一貫した性能向上が得られた。
具体的には, DOTA-v1.0では1.59 mAP, DOTA-v1.5では4.88 mAP, HRSC 2016では2.1 mAPの増加がみられた。
関連論文リスト
- SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Exploring Consistency in Cross-Domain Transformer for Domain Adaptive
Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。
このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。
ドメイン横断の注意層を持つアテンションマップに適応する。
論文 参考訳(メタデータ) (2022-11-27T02:40:33Z) - Exploiting Domain Transferability for Collaborative Inter-level Domain
Adaptive Object Detection [17.61278045720336]
オブジェクト検出のためのドメイン適応(DAOD)は、アノテーションなしで対象オブジェクトを検出できるため、最近注目を集めている。
従来の研究は、2段階検出器の部分的なレベルから抽出した特徴を、対向訓練によって整列させることに重点を置いていた。
本稿では,マルチスケール対応不確実性注意(MUA),転送可能領域ネットワーク(TRPN),動的インスタンスサンプリング(DIS)の3つのコンポーネントを用いた提案手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T01:50:26Z) - Few-Shot Object Detection with Fully Cross-Transformer [35.49840687007507]
Few-shot Object Detection (FSOD) は、ごく少数のトレーニング例を用いて、新しいオブジェクトを検出することを目的としている。
本稿では,機能バックボーンと検出ヘッドの両方にクロストランスフォーマーを組み込むことにより,FSODのための新しいFCTモデルを提案する。
本モデルでは,複数レベルのインタラクションを導入することにより,2つのブランチ間の数ショットの類似性学習を改善することができる。
論文 参考訳(メタデータ) (2022-03-28T18:28:51Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - RelationRS: Relationship Representation Network for Object Detection in
Aerial Images [15.269897893563417]
航空画像における物体検出のための関係表現ネットワーク(RelationRS)を提案する。
デュアルリレーションモジュールは、異なるスケールの特徴間の潜在的な関係を学習し、異なるパッチから異なるシーン間の関係を同じイテレーションで学習する。
複雑な背景を持つ画像の物体検出効果を改善するため、BVR(Bridging visual representations Module)が空中画像のフィールドに導入される。
論文 参考訳(メタデータ) (2021-10-13T14:02:33Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。