論文の概要: Efficient Decoder for End-to-End Oriented Object Detection in Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2311.17629v3
- Date: Mon, 19 Aug 2024 04:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:57:15.700320
- Title: Efficient Decoder for End-to-End Oriented Object Detection in Remote Sensing Images
- Title(参考訳): リモートセンシング画像におけるエンドツーエンド物体検出のための効率的なデコーダ
- Authors: Jiaqi Zhao, Zeyu Ding, Yong Zhou, Hancheng Zhu, Wenliang Du, Rui Yao, Abdulmotaleb El Saddik,
- Abstract要約: 効率的なデコーダを備えたエンドツーエンド指向型検出器を提案する。
回転RoIアテンションと選択離散クエリ(SDQ)を提案する。
本手法は, ResNet50バックボーンを用いたDIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), DOTA-v2.0 (53.28% mAP) の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 26.37802649901314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object instances in remote sensing images often distribute with multi-orientations, varying scales, and dense distribution. These issues bring challenges to end-to-end oriented object detectors including multi-scale features alignment and a large number of queries. To address these limitations, we propose an end-to-end oriented detector equipped with an efficient decoder, which incorporates two technologies, Rotated RoI attention (RRoI attention) and Selective Distinct Queries (SDQ). Specifically, RRoI attention effectively focuses on oriented regions of interest through a cross-attention mechanism and aligns multi-scale features. SDQ collects queries from intermediate decoder layers and then filters similar queries to obtain distinct queries. The proposed SDQ can facilitate the optimization of one-to-one label assignment, without introducing redundant initial queries or extra auxiliary branches. Extensive experiments on five datasets demonstrate the effectiveness of our method. Notably, our method achieves state-of-the-art performance on DIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), and DOTA-v2.0 (53.28% mAP) with the ResNet50 backbone.
- Abstract(参考訳): リモートセンシング画像のオブジェクトインスタンスは、多方向、様々なスケール、密度分布で分散することが多い。
これらの問題は、マルチスケール機能アライメントや多数のクエリを含むエンドツーエンドのオブジェクト指向オブジェクト検出器に課題をもたらす。
これらの制約に対処するため,ローテートされたRoIアテンション(RRoIアテンション)と選択離散キュー(SDQ)の2つの技術を組み込んだ,効率的なデコーダを備えたエンドツーエンド指向検出器を提案する。
具体的には、RRoIの注意は、クロスアテンション機構を通じて関心のある方向の領域に効果的に焦点を合わせ、マルチスケールな特徴を整列させる。
SDQは中間デコーダ層からクエリを収集し、同様のクエリをフィルタして異なるクエリを取得する。
提案したSDQは、冗長な初期クエリや追加の補助ブランチを導入することなく、1対1のラベル割り当ての最適化を容易にする。
5つのデータセットに対する大規模な実験により,本手法の有効性が示された。
特に,DIOR-R (67.31% mAP), DOTA-v1.5 (67.43% mAP), DOTA-v2.0 (53.28% mAP) におけるResNet50バックボーンの最先端性能を実現する。
関連論文リスト
- Dense Object Detection Based on De-homogenized Queries [12.33849715319161]
デンス物体検出は、自動走行、ビデオ監視、その他の分野で広く利用されている。
現在、非最大抑圧(NMS)のような欲求的アルゴリズムに基づく検出手法は、密集したシナリオにおいて繰り返し予測や欠落検出をしばしば生成している。
終端から終端までのDETR(Detection TRansformer)をNMSなどの後処理の復号化能力をネットワークに組み込む検知器として利用することで,クエリベースの検出器における均一なクエリがネットワークの復号化能力とエンコーダの学習効率を低下させることがわかった。
論文 参考訳(メタデータ) (2025-02-11T02:36:10Z) - OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。
これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。
従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文 参考訳(メタデータ) (2024-09-29T10:36:33Z) - Towards End-to-End Semi-Supervised Table Detection with Semantic Aligned Matching Transformer [12.042768320132694]
文書画像内のテーブル検出は、テーブルの識別とローカライゼーションを含む文書処理において重要なタスクである。
ディープラーニングの最近の進歩は、このタスクの精度を大幅に向上させたが、それでも効果的なトレーニングには大きなラベル付きデータセットに依存している。
本稿では, SAM-DETRを用いた半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-30T20:25:57Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - End-to-End Lane detection with One-to-Several Transformer [6.79236957488334]
O2SFormerはResNet18バックボーンのDETRよりも12.5倍高速に収束する。
ResNet50のバックボーンを持つO2SFormerは、CULaneデータセット上で77.83%のF1スコアを獲得し、既存のTransformerベースおよびCNNベースの検出器を上回っている。
論文 参考訳(メタデータ) (2023-05-01T06:07:11Z) - Enhanced Training of Query-Based Object Detection via Selective Query
Recollection [35.3219210570517]
本稿では,問合せ型オブジェクト検出器が最終復号段階で誤予測し,中間段階で正確に予測する現象について検討する。
我々は、クエリに基づくオブジェクト検出のためのシンプルで効果的なトレーニング戦略であるSelective Query Recollectionを設計し、提示する。
論文 参考訳(メタデータ) (2022-12-15T02:45:57Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。