論文の概要: Relation DETR: Exploring Explicit Position Relation Prior for Object Detection
- arxiv url: http://arxiv.org/abs/2407.11699v1
- Date: Tue, 16 Jul 2024 13:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 14:52:24.963345
- Title: Relation DETR: Exploring Explicit Position Relation Prior for Object Detection
- Title(参考訳): リレーションDETR:オブジェクト検出に先立って明示的な位置関係を探索する
- Authors: Xiuquan Hou, Meiqin Liu, Senlin Zhang, Ping Wei, Badong Chen, Xuguang Lan,
- Abstract要約: 本稿では,DETR(Detection TRansformer)の収束性と性能を向上させる手法を提案する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入している。
汎用データセットとタスク固有のデータセットの両方の実験は、我々のアプローチの有効性を実証している。
- 参考スコア(独自算出の注目度): 26.03892270020559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a general scheme for enhancing the convergence and performance of DETR (DEtection TRansformer). We investigate the slow convergence problem in transformers from a new perspective, suggesting that it arises from the self-attention that introduces no structural bias over inputs. To address this issue, we explore incorporating position relation prior as attention bias to augment object detection, following the verification of its statistical significance using a proposed quantitative macroscopic correlation (MC) metric. Our approach, termed Relation-DETR, introduces an encoder to construct position relation embeddings for progressive attention refinement, which further extends the traditional streaming pipeline of DETR into a contrastive relation pipeline to address the conflicts between non-duplicate predictions and positive supervision. Extensive experiments on both generic and task-specific datasets demonstrate the effectiveness of our approach. Under the same configurations, Relation-DETR achieves a significant improvement (+2.0% AP compared to DINO), state-of-the-art performance (51.7% AP for 1x and 52.1% AP for 2x settings), and a remarkably faster convergence speed (over 40% AP with only 2 training epochs) than existing DETR detectors on COCO val2017. Moreover, the proposed relation encoder serves as a universal plug-in-and-play component, bringing clear improvements for theoretically any DETR-like methods. Furthermore, we introduce a class-agnostic detection dataset, SA-Det-100k. The experimental results on the dataset illustrate that the proposed explicit position relation achieves a clear improvement of 1.3% AP, highlighting its potential towards universal object detection. The code and dataset are available at https://github.com/xiuqhou/Relation-DETR.
- Abstract(参考訳): 本稿では,DETR(Detection TRansformer)の収束と性能向上のための一般的な手法を提案する。
新しい視点から変換器の緩やかな収束問題を考察し、入力に対する構造的バイアスを伴わない自己注意から生じることを示唆する。
この問題に対処するために,提案した定量的マクロ相関(MC)測定値を用いて,その統計的意義の検証を行い,注目バイアスとして位置関係を付加することを検討する。
我々の手法であるRelation-DETRは、プログレッシブ・アテンション・リファインメントのための位置関係埋め込みを構築するエンコーダを導入し、DTRの従来のストリーミングパイプラインを、非重複予測とポジティブ・インスペクションの競合に対処するコントラッシブ・リレーショナル・パイプラインへと拡張する。
汎用データセットとタスク固有のデータセットの両方に関する大規模な実験は、我々のアプローチの有効性を実証している。
同じ構成の下で、Relation-DETRは、COCO val2017の既存のDTR検出器よりも大幅に向上(DINOと比較して+2.0% AP)し、最先端の性能(1xでは51.7% AP、2xでは52.1% AP)し、収束速度(たった2つのトレーニングエポックで40% AP以上)が大幅に向上した。
さらに、提案したリレーショナルエンコーダは汎用的なプラグイン・アンド・プレイコンポーネントとして機能し、理論上はDETRライクな手法に対して明確な改善をもたらす。
さらに,クラスに依存しない検出データセットSA-Det-100kを導入する。
このデータセットの実験結果は、提案された明示的な位置関係が1.3%APの明確な改善を達成し、普遍的な物体検出へのポテンシャルを浮き彫りにしていることを示している。
コードとデータセットはhttps://github.com/xiuqhou/Relation-DETRで公開されている。
関連論文リスト
- Improving Detection in Aerial Images by Capturing Inter-Object Relationships [7.729994373861261]
シーン内の物体の空間分布は、意味的な関係によって支配される意味のあるパターンを示す。
本研究では,これらのオブジェクト間の関係を捉えるためのトランスフォーマーベースのアプローチを提案する。
空間的および幾何学的関係は、注意重みに組み込まれ、適応的に変調および正規化される。
論文 参考訳(メタデータ) (2024-04-05T14:39:13Z) - RAT: Retrieval-Augmented Transformer for Click-Through Rate Prediction [68.34355552090103]
本稿では, 試料内および試料間における微細な特徴相互作用の獲得を目的とした検索-拡張変換器(RAT)を開発した。
次に、トランスフォーマー層をカスケードされた注意で構築し、イントラサンプルとクロスサンプルの両方の機能インタラクションをキャプチャします。
実世界のデータセットの実験は、RATの有効性を裏付け、ロングテールシナリオにおいてその利点を示唆している。
論文 参考訳(メタデータ) (2024-04-02T19:14:23Z) - PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection [26.843891792018447]
PETDet (Proposal Enhancement for Two-stage fine-fine object detection) は, 2段階FGOD法において, サブタスクをよりよく扱うために提案される。
動的ラベル割り当てと注意に基づく分解により, アンカーフリー品質指向提案ネットワーク(QOPN)を提案する。
A novel Adaptive Recognition Loss (ARL)は、R-CNNの責任者が高品質な提案に焦点を合わせるためのガイダンスを提供する。
論文 参考訳(メタデータ) (2023-12-16T18:04:56Z) - DRAG: Divergence-based Adaptive Aggregation in Federated learning on
Non-IID Data [11.830891255837788]
局所勾配降下(SGD)は、フェデレートラーニング(FL)におけるコミュニケーション効率向上の基本的なアプローチである
我々は,局所勾配と大域基準方向の角度を定量化する「発散度」と呼ばれる新しい計量を導入する。
本稿では,各ラウンドの参照方向に対して受信した局所的な更新を,余分な通信オーバーヘッドを伴わずに動的にドラッグする分散型アダプティブアグリゲーション(DRAG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-04T19:40:58Z) - Focus the Discrepancy: Intra- and Inter-Correlation Learning for Image
Anomaly Detection [13.801572236048601]
FOD(FOcus-the-Discrepancy)は、異常のパッチワイド、イントラ・イントラ・インター・ディレクレンシーを同時に検出することができる。
本稿では,新たなADフレームワークであるFOcus-the-Discrepancy(FOD)を提案する。
論文 参考訳(メタデータ) (2023-08-06T01:30:26Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Hausdorff Distance Matching with Adaptive Query Denoising for Rotated Detection Transformer [4.137346786534721]
両部マッチングのためのハウスドルフ距離に基づくコストを導入し、予測と基底の真理との相違をより正確に定量化する。
本稿では,2部マッチングを用いた適応型問合せ記述手法を提案し,モデル改良から抽出した雑音付き問合せを選択的に除去する。
論文 参考訳(メタデータ) (2023-05-12T16:42:54Z) - Semantic-Aligned Matching for Enhanced DETR Convergence and Multi-Scale
Feature Fusion [95.7732308775325]
提案したDetection TRansformer (DETR) は、オブジェクト検出のための完全なエンドツーエンドパラダイムを確立している。
DETRは遅いトレーニング収束に悩まされており、様々な検出タスクの適用性を妨げている。
我々は,DETRの収束を加速し,検出性能を向上させるためにセマンティック・アラインド・マッチDreTR++を設計する。
論文 参考訳(メタデータ) (2022-07-28T15:34:29Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - Robust and Accurate Object Detection via Adversarial Learning [111.36192453882195]
この研究は、逆の例を探索することで、物体検出器の微調整段階を補強する。
提案手法は,オブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。
論文 参考訳(メタデータ) (2021-03-23T19:45:26Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。