論文の概要: RQFormer: Rotated Query Transformer for End-to-End Oriented Object Detection
- arxiv url: http://arxiv.org/abs/2311.17629v4
- Date: Mon, 16 Dec 2024 14:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:44.293184
- Title: RQFormer: Rotated Query Transformer for End-to-End Oriented Object Detection
- Title(参考訳): RQFormer: エンドツーエンドオブジェクト指向オブジェクト検出のための回転クエリ変換器
- Authors: Jiaqi Zhao, Zeyu Ding, Yong Zhou, Hancheng Zhu, Wenliang Du, Rui Yao, Abdulmotaleb El Saddik,
- Abstract要約: オブジェクト指向オブジェクト検出は、複数の向き、様々なスケール、密度分布を持つオブジェクトインスタンスの存在により、困難なタスクを呈する。
本稿では、2つの重要な技術を統合するRotated Query Transformerと呼ばれるエンドツーエンド指向型検出器を提案する。
4つのリモートセンシングデータセットと1つのシーンテキストデータセットを用いて実験を行い,本手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 26.37802649901314
- License:
- Abstract: Oriented object detection presents a challenging task due to the presence of object instances with multiple orientations, varying scales, and dense distributions. Recently, end-to-end detectors have made significant strides by employing attention mechanisms and refining a fixed number of queries through consecutive decoder layers. However, existing end-to-end oriented object detectors still face two primary challenges: 1) misalignment between positional queries and keys, leading to inconsistency between classification and localization; and 2) the presence of a large number of similar queries, which complicates one-to-one label assignments and optimization. To address these limitations, we propose an end-to-end oriented detector called the Rotated Query Transformer, which integrates two key technologies: Rotated RoI Attention (RRoI Attention) and Selective Distinct Queries (SDQ). First, RRoI Attention aligns positional queries and keys from oriented regions of interest through cross-attention. Second, SDQ collects queries from intermediate decoder layers and filters out similar ones to generate distinct queries, thereby facilitating the optimization of one-to-one label assignments. Finally, extensive experiments conducted on four remote sensing datasets and one scene text dataset demonstrate the effectiveness of our method. To further validate its generalization capability, we also extend our approach to horizontal object detection The code is available at \url{https://github.com/wokaikaixinxin/RQFormer}.
- Abstract(参考訳): オブジェクト指向オブジェクト検出は、複数の向き、様々なスケール、密度分布を持つオブジェクトインスタンスの存在により、困難なタスクを呈する。
近年,注意機構を導入し,連続するデコーダ層を通じて一定の数のクエリを精製することによって,エンド・ツー・エンド検出器は大きな進歩を遂げている。
しかし、既存のエンドツーエンド指向オブジェクト検出器は、以下の2つの大きな課題に直面している。
1) 位置問合せと鍵の不一致は,分類と位置の整合性につながる。
2) ラベルの割り当てと最適化を複雑にする類似クエリが多数存在する。
これらの制限に対処するため、Rotated Query Transformerと呼ばれるエンドツーエンド指向の検出器を提案し、Rotated RoI Attention (RRoI Attention) と Selective Distinct Queries (SDQ) という2つの重要な技術を統合する。
まず、RRoI Attentionは、クロスアテンションを通じて、関心のある方向の領域からの位置情報クエリとキーをアライメントする。
第2に、SDQは中間デコーダ層からクエリを収集し、類似したクエリをフィルタして、異なるクエリを生成する。
最後に,4つのリモートセンシングデータセットと1つのシーンテキストデータセットを用いて実験を行い,本手法の有効性を実証した。
その一般化能力をさらに検証するために、水平オブジェクト検出へのアプローチの拡張も行います。
関連論文リスト
- Dense Object Detection Based on De-homogenized Queries [12.33849715319161]
デンス物体検出は、自動走行、ビデオ監視、その他の分野で広く利用されている。
現在、非最大抑圧(NMS)のような欲求的アルゴリズムに基づく検出手法は、密集したシナリオにおいて繰り返し予測や欠落検出をしばしば生成している。
終端から終端までのDETR(Detection TRansformer)をNMSなどの後処理の復号化能力をネットワークに組み込む検知器として利用することで,クエリベースの検出器における均一なクエリがネットワークの復号化能力とエンコーダの学習効率を低下させることがわかった。
論文 参考訳(メタデータ) (2025-02-11T02:36:10Z) - OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。
これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。
従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文 参考訳(メタデータ) (2024-09-29T10:36:33Z) - Towards End-to-End Semi-Supervised Table Detection with Semantic Aligned Matching Transformer [12.042768320132694]
文書画像内のテーブル検出は、テーブルの識別とローカライゼーションを含む文書処理において重要なタスクである。
ディープラーニングの最近の進歩は、このタスクの精度を大幅に向上させたが、それでも効果的なトレーニングには大きなラベル付きデータセットに依存している。
本稿では, SAM-DETRを用いた半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-30T20:25:57Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - End-to-End Lane detection with One-to-Several Transformer [6.79236957488334]
O2SFormerはResNet18バックボーンのDETRよりも12.5倍高速に収束する。
ResNet50のバックボーンを持つO2SFormerは、CULaneデータセット上で77.83%のF1スコアを獲得し、既存のTransformerベースおよびCNNベースの検出器を上回っている。
論文 参考訳(メタデータ) (2023-05-01T06:07:11Z) - Enhanced Training of Query-Based Object Detection via Selective Query
Recollection [35.3219210570517]
本稿では,問合せ型オブジェクト検出器が最終復号段階で誤予測し,中間段階で正確に予測する現象について検討する。
我々は、クエリに基づくオブジェクト検出のためのシンプルで効果的なトレーニング戦略であるSelective Query Recollectionを設計し、提示する。
論文 参考訳(メタデータ) (2022-12-15T02:45:57Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。