Fugu-MT 論文翻訳(概要): Context-Aware Aerial Object Detection: Leveraging Inter-Object and Background Relationships

論文の概要: Context-Aware Aerial Object Detection: Leveraging Inter-Object and Background Relationships

arxiv url: http://arxiv.org/abs/2404.04140v2
Date: Thu, 28 Nov 2024 12:20:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.557491
Title: Context-Aware Aerial Object Detection: Leveraging Inter-Object and Background Relationships
Title（参考訳）: 文脈認識型空中物体検出:物体間関係と背景関係の活用
Authors: Botao Ren, Botian Xu, Xue Yang, Yifan Pu, Jingyi Wang, Zhidong Deng,
Abstract要約: 現代のほとんどのオブジェクト検出パイプラインでは、特徴マップから独立して検出提案が処理される。本稿では,トランスフォーマーモデルとコントラスト言語-画像事前学習機能の強みを利用するフレームワークを提案する。 DOTA-v1.0 では 1.37 mAP$_50$,DOTA-v1.5 では 5.30 mAP$_50$,DOTA-v2.0 では 2.30 mAP$_50$,DI では 3.23 mAP$_50$ が増加し,新たな最先端結果が得られた。
参考スコア（独自算出の注目度）: 10.416444779297148
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In most modern object detection pipelines, the detection proposals are processed independently given the feature map. Therefore, they overlook the underlying relationships between objects and the surrounding background, which could have provided additional context for accurate detection. Because aerial imagery is almost orthographic, the spatial relations in image space closely align with those in the physical world, and inter-object and object-background relationships become particularly significant. To address this oversight, we propose a framework that leverages the strengths of Transformer-based models and Contrastive Language-Image Pre-training (CLIP) features to capture such relationships. Specifically, Building on two-stage detectors, we treat Region of Interest (RoI) proposals as tokens, accompanied by CLIP Tokens obtained from multi-level image segments. These tokens are then passed through a Transformer encoder, where specific spatial and geometric relations are incorporated into the attention weights, which are adaptively modulated and regularized. Additionally, we introduce self-supervised constraints on CLIP Tokens to ensure consistency. Extensive experiments on three benchmark datasets demonstrate that our approach achieves consistent improvements, setting new state-of-the-art results with increases of 1.37 mAP$_{50}$ on DOTA-v1.0, 5.30 mAP$_{50}$ on DOTA-v1.5, 2.30 mAP$_{50}$ on DOTA-v2.0 and 3.23 mAP$_{50}$ on DIOR-R.
Abstract（参考訳）: 現代のほとんどのオブジェクト検出パイプラインでは、特徴マップから独立して検出提案が処理される。そのため、オブジェクトと周囲の背景との間の基礎的な関係を見落とし、正確な検出のための追加のコンテキストを提供することができた。航空画像はほぼ正方形であるため、画像空間の空間的関係は物理的世界の空間的関係と密接に一致し、物体間関係と物体-背景関係は特に重要となる。そこで本稿では,TransformerベースのモデルとContrastive Language- Image Pre-Torning (CLIP) 機能を利用するフレームワークを提案する。具体的には,2段階検出器上に構築し,マルチレベル画像セグメントから得られたCLIPトークンを伴って,関心領域(RoI)提案をトークンとして扱う。これらのトークンはトランスフォーマーエンコーダに渡され、特定の空間的および幾何学的関係がアテンション重みに組み込まれ、適応的に変調され、規則化される。さらに,一貫性を確保するために,CLIPトークンに対する自己監督的制約を導入する。 DOTA-v1.0, 5.30 mAP$_{50}$ on DOTA-v1.5, 2.30 mAP$_{50}$ on DOTA-v2.0, 3.23 mAP$_{50}$ on DIOR-R。

関連論文リスト

An Efficient Aerial Image Detection with Variable Receptive Fields [0.0]
3つの鍵成分を組み込んだ変圧器型検出器を提案する。 VRF-DETRは51.4%のmAPtextsubscript50と31.8%のmAPtextsubscript50:95を13.5Mパラメータで達成している。
論文参考訳（メタデータ） (2025-04-21T15:16:13Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
LP-DETR: Layer-wise Progressive Relations for Object Detection [4.632366780742503]
LP-DETR(Layer-wise Progressive DETR)は,DTRに基づくオブジェクト検出を多スケール関係モデリングにより拡張する手法である。本稿では,オブジェクトクエリ間の学習可能な空間関係を,関係認識型自己認識機構を通じて導入する。
論文参考訳（メタデータ） (2025-02-07T18:25:28Z)
OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文参考訳（メタデータ） (2024-09-29T10:36:33Z)
Relation DETR: Exploring Explicit Position Relation Prior for Object Detection [26.03892270020559]
本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-07-16T13:17:07Z)
SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-07-01T07:03:51Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Hausdorff Distance Matching with Adaptive Query Denoising for Rotated Detection Transformer [4.137346786534721]
両部マッチングのためのハウスドルフ距離に基づくコストを導入し、予測と基底の真理との相違をより正確に定量化する。本稿では,2部マッチングを用いた適応型問合せ記述手法を提案し,モデル改良から抽出した雑音付き問合せを選択的に除去する。
論文参考訳（メタデータ） (2023-05-12T16:42:54Z)
SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文参考訳（メタデータ） (2023-04-10T11:10:42Z)
Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文参考訳（メタデータ） (2023-04-06T14:33:05Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
Exploring Consistency in Cross-Domain Transformer for Domain Adaptive Semantic Segmentation [51.10389829070684]
ドメインギャップは、自己注意の相違を引き起こす可能性がある。このギャップのため、変圧器は、ターゲット領域の精度を低下させる刺激領域または画素に付随する。ドメイン横断の注意層を持つアテンションマップに適応する。
論文参考訳（メタデータ） (2022-11-27T02:40:33Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文参考訳（メタデータ） (2022-07-07T17:59:56Z)
Anchor Retouching via Model Interaction for Robust Object Detection in Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文参考訳（メタデータ） (2021-12-13T14:37:20Z)
MRDet: A Multi-Head Network for Accurate Oriented Object Detection in Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文参考訳（メタデータ） (2020-12-24T06:36:48Z)
DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文参考訳（メタデータ） (2020-10-02T13:59:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。