論文の概要: Route-DETR: Pairwise Query Routing in Transformers for Object Detection
- arxiv url: http://arxiv.org/abs/2512.13876v1
- Date: Mon, 15 Dec 2025 20:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.481697
- Title: Route-DETR: Pairwise Query Routing in Transformers for Object Detection
- Title(参考訳): Route-DETR: オブジェクト検出のための変換器のペアワイズクエリルーティング
- Authors: Ye Zhang, Qi Chen, Wenyou Huang, Rui Liu, Zhengjian Kang,
- Abstract要約: Detection Transformer (DETR) はオブジェクト検出のためのエンドツーエンドソリューションを提供する。
DETRは、複数のクエリが同じ位置に収束する非効率なクエリ競合に悩まされている。
本稿では,デコーダの自己アテンション層における適応的ペアワイズルーティングを通じて,これらの問題に対処するRoute-DETRを提案する。
- 参考スコア(独自算出の注目度): 11.46025964297103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Detection Transformer (DETR) offers an end-to-end solution for object detection by eliminating hand-crafted components like non-maximum suppression. However, DETR suffers from inefficient query competition where multiple queries converge to similar positions, leading to redundant computations. We present Route-DETR, which addresses these issues through adaptive pairwise routing in decoder self-attention layers. Our key insight is distinguishing between competing queries (targeting the same object) versus complementary queries (targeting different objects) using inter-query similarity, confidence scores, and geometry. We introduce dual routing mechanisms: suppressor routes that modulate attention between competing queries to reduce duplication, and delegator routes that encourage exploration of different regions. These are implemented via learnable low-rank attention biases enabling asymmetric query interactions. A dual-branch training strategy incorporates routing biases only during training while preserving standard attention for inference, ensuring no additional computational cost. Experiments on COCO and Cityscapes demonstrate consistent improvements across multiple DETR baselines, achieving +1.7% mAP gain over DINO on ResNet-50 and reaching 57.6% mAP on Swin-L, surpassing prior state-of-the-art models.
- Abstract(参考訳): Detection Transformer (DETR) は、非最大抑圧のような手作りのコンポーネントを排除し、オブジェクト検出のためのエンドツーエンドソリューションを提供する。
しかし、DETRは複数のクエリが同じ位置に収束する非効率なクエリ競合に悩まされ、冗長な計算に繋がる。
本稿では,デコーダの自己アテンション層における適応的ペアワイズルーティングを通じて,これらの問題に対処するRoute-DETRを提案する。
我々の重要な洞察は、競合するクエリ(同じオブジェクトをターゲットとする)と相補的なクエリ(異なるオブジェクトをターゲットとする)を、クエリ間の類似性、信頼性スコア、幾何を使って区別することです。
本稿では,重複度を低減するために競合するクエリ間の注意を変調する抑制経路と,異なる領域の探索を促進するデリゲータ経路を導入する。
これらは非対称なクエリ相互作用を可能にする学習可能な低ランクアテンションバイアスによって実装される。
デュアルブランチトレーニング戦略では、トレーニング中にのみルーティングバイアスが組み込まれ、推論の標準的な注意を保ち、追加の計算コストが保証されない。
COCOとCityscapesの実験は、複数のDETRベースラインで一貫した改善を示し、ResNet-50ではDINOよりも+1.7% mAP、Swin-Lでは57.6% mAPに達し、最先端のモデルを上回った。
関連論文リスト
- Robust Nearest Neighbour Retrieval Using Targeted Manifold Manipulation [0.0]
最近傍の検索は、分類と説明可能なAIパイプラインの中心である。
特徴多様体の指定された領域に各サンプルをどの程度容易に適用できるかを評価することによって,検索を再現するTMM-NNを提案する。
TMM-NNは軽量でクエリ固有のトリガパッチを通じてこれを実装している。
論文 参考訳(メタデータ) (2025-11-09T07:37:05Z) - Fractional Correspondence Framework in Detection Transformer [13.388933240897492]
Detection Transformer (DETR) はオブジェクト検出タスクのマッチングプロセスを大幅に単純化した。
このアルゴリズムは、予測された有界箱とトレーニング中の接地的アノテーションとの最適な1対1マッチングを容易にする。
本稿では,予測と地上の真実を整合させるコストを捉え,最も正確な対応を見つけるためのフレキシブルマッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:29:20Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Detection Transformer with Stable Matching [48.963171068785435]
もっとも重要な設計は, 肯定的な事例の分類スコアを監督するために, 位置測定値のみを使用することである。
本原理では,DTRの分類損失とマッチングコストに位置測定値を統合することで,簡易かつ効果的な2つの修正を提案する。
12エポックおよび24エポックのトレーニング設定の下でResNet-50バックボーンを用いてCOCO検出ベンチマークで50.4および51.5APを達成する。
論文 参考訳(メタデータ) (2023-04-10T17:55:37Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Accelerating DETR Convergence via Semantic-Aligned Matching [50.3633635846255]
本稿では,DTRの精度を犠牲にすることなく,DTRの収束を大幅に加速するセマンティック整合DTRであるSAM-DETRを提案する。
意味整合性マッチングにおいて最も識別性の高い特徴を持つ有能な点を明示的に検索し、収束をさらに高速化し、検出精度も向上する。
論文 参考訳(メタデータ) (2022-03-14T06:50:51Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - RelationTrack: Relation-aware Multiple Object Tracking with Decoupled
Representation [3.356734463419838]
既存のオンラインマルチオブジェクトトラッキング(MOT)アルゴリズムは、しばしば2つのサブタスク、検出および再識別(ReID)で構成されています。
推論速度を高め、複雑さを減らすために、現在のメソッドは一般的にこれらの二重サブタスクを統一されたフレームワークに統合します。
学習した表現を検出特異的およびReID固有の埋め込みに分離するGlobal Context Disentangling(GCD)というモジュールを考案した。
この制約を解決するために,トランスコーダの強力な推論能力と変形可能な注意を組み合わせることで,誘導トランス(gte)と呼ばれるモジュールを開発した。
論文 参考訳(メタデータ) (2021-05-10T13:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。