Fugu-MT 論文翻訳(概要): Improving Detection in Aerial Images by Capturing Inter-Object Relationships

論文の概要: Improving Detection in Aerial Images by Capturing Inter-Object Relationships

arxiv url: http://arxiv.org/abs/2404.04140v1
Date: Fri, 5 Apr 2024 14:39:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 15:45:42.557033
Title: Improving Detection in Aerial Images by Capturing Inter-Object Relationships
Title（参考訳）: 物体間関係のキャプチャによる空中画像の検出改善
Authors: Botao Ren, Botian Xu, Yifan Pu, Jingyi Wang, Zhidong Deng,
Abstract要約: シーン内の物体の空間分布は、意味的な関係によって支配される意味のあるパターンを示す。本研究では,これらのオブジェクト間の関係を捉えるためのトランスフォーマーベースのアプローチを提案する。空間的および幾何学的関係は、注意重みに組み込まれ、適応的に変調および正規化される。
参考スコア（独自算出の注目度）: 7.729994373861261
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In many image domains, the spatial distribution of objects in a scene exhibits meaningful patterns governed by their semantic relationships. In most modern detection pipelines, however, the detection proposals are processed independently, overlooking the underlying relationships between objects. In this work, we introduce a transformer-based approach to capture these inter-object relationships to refine classification and regression outcomes for detected objects. Building on two-stage detectors, we tokenize the region of interest (RoI) proposals to be processed by a transformer encoder. Specific spatial and geometric relations are incorporated into the attention weights and adaptively modulated and regularized. Experimental results demonstrate that the proposed method achieves consistent performance improvement on three benchmarks including DOTA-v1.0, DOTA-v1.5, and HRSC 2016, especially ranking first on both DOTA-v1.5 and HRSC 2016. Specifically, our new method has an increase of 1.59 mAP on DOTA-v1.0, 4.88 mAP on DOTA-v1.5, and 2.1 mAP on HRSC 2016, respectively, compared to the baselines.
Abstract（参考訳）: 多くの画像領域において、シーン内のオブジェクトの空間分布は、意味的な関係によって支配される意味のあるパターンを示す。しかし、現代のほとんどの検出パイプラインでは、検出提案は独立して処理され、オブジェクト間の基盤となる関係を見渡せる。本研究では,これらのオブジェクト間の関係を捕捉し,検出対象の分類と回帰結果を洗練するためのトランスフォーマーに基づくアプローチを提案する。 2段階検出器上に構築し、変換器エンコーダによって処理される関心領域(RoI)の提案をトークン化する。空間的および幾何学的関係は、注意重みに組み込まれ、適応的に変調および正規化される。実験結果から,DOTA-v1.0,DOTA-v1.5,HRSC 2016の3つのベンチマークで一貫した性能向上が得られた。具体的には, DOTA-v1.0では1.59 mAP, DOTA-v1.5では4.88 mAP, HRSC 2016では2.1 mAPの増加がみられた。

関連論文リスト

DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
An Efficient Aerial Image Detection with Variable Receptive Fields [0.0]
3つの鍵成分を組み込んだ変圧器型検出器を提案する。 VRF-DETRは51.4%のmAPtextsubscript50と31.8%のmAPtextsubscript50:95を13.5Mパラメータで達成している。
論文参考訳（メタデータ） (2025-04-21T15:16:13Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
LP-DETR: Layer-wise Progressive Relations for Object Detection [4.632366780742503]
LP-DETR(Layer-wise Progressive DETR)は,DTRに基づくオブジェクト検出を多スケール関係モデリングにより拡張する手法である。本稿では,オブジェクトクエリ間の学習可能な空間関係を,関係認識型自己認識機構を通じて導入する。
論文参考訳（メタデータ） (2025-02-07T18:25:28Z)
OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文参考訳（メタデータ） (2024-09-29T10:36:33Z)
Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-07-16T13:17:07Z)
SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-07-01T07:03:51Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Hausdorff Distance Matching with Adaptive Query Denoising for Rotated Detection Transformer [4.137346786534721]
両部マッチングのためのハウスドルフ距離に基づくコストを導入し、予測と基底の真理との相違をより正確に定量化する。本稿では,2部マッチングを用いた適応型問合せ記述手法を提案し,モデル改良から抽出した雑音付き問合せを選択的に除去する。
論文参考訳（メタデータ） (2023-05-12T16:42:54Z)
SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文参考訳（メタデータ） (2023-04-10T11:10:42Z)
Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文参考訳（メタデータ） (2023-04-06T14:33:05Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
Exploring Consistency in Cross-Domain Transformer for Domain Adaptive Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。ドメイン横断の注意層を持つアテンションマップに適応する。
論文参考訳（メタデータ） (2022-11-27T02:40:33Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文参考訳（メタデータ） (2022-07-07T17:59:56Z)
Anchor Retouching via Model Interaction for Robust Object Detection in Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文参考訳（メタデータ） (2021-12-13T14:37:20Z)
MRDet: A Multi-Head Network for Accurate Oriented Object Detection in Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文参考訳（メタデータ） (2020-12-24T06:36:48Z)
DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文参考訳（メタデータ） (2020-10-02T13:59:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。