論文の概要: Beyond Hungarian: Match-Free Supervision for End-to-End Object Detection
- arxiv url: http://arxiv.org/abs/2603.08514v1
- Date: Mon, 09 Mar 2026 15:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.315489
- Title: Beyond Hungarian: Match-Free Supervision for End-to-End Object Detection
- Title(参考訳): Beyond Hungarian: エンドツーエンドのオブジェクト検出のためのMatch-free Supervision
- Authors: Shoumeng Qiu, Xinrun Li, Yang Long,
- Abstract要約: 提案手法は,DETRを用いた新しい整合性学習手法である。
我々は、符号化された地下構造情報を用いて、クロスアテンション機構を通じてデコーダクエリを探索する。
実験により,提案手法は従来のマッチング処理をバイパスすることを示した。
- 参考スコア(独自算出の注目度): 6.786987355161583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent DEtection TRansformer (DETR) based frameworks have achieved remarkable success in end-to-end object detection. However, the reliance on the Hungarian algorithm for bipartite matching between queries and ground truths introduces computational overhead and complicates the training dynamics. In this paper, we propose a novel matching-free training scheme for DETR-based detectors that eliminates the need for explicit heuristic matching. At the core of our approach is a dedicated Cross-Attention-based Query Selection (CAQS) module. Instead of discrete assignment, we utilize encoded ground-truth information to probe the decoder queries through a cross-attention mechanism. By minimizing the weighted error between the queried results and the ground truths, the model autonomously learns the implicit correspondences between object queries and specific targets. This learned relationship further provides supervision signals for the learning of queries. Experimental results demonstrate that our proposed method bypasses the traditional matching process, significantly enhancing training efficiency, reducing the matching latency by over 50\%, effectively eliminating the discrete matching bottleneck through differentiable correspondence learning, and also achieving superior performance compared to existing state-of-the-art methods.
- Abstract(参考訳): 近年のDetection TRansformer (DETR) ベースのフレームワークは、エンドツーエンドのオブジェクト検出において顕著な成功を収めている。
しかし、クェリとグラウンドの真理の両部マッチングに対するハンガリーのアルゴリズムへの依存は、計算オーバーヘッドをもたらし、トレーニングのダイナミクスを複雑にする。
本稿では,DeTRをベースとした検出器に対して,明示的なヒューリスティックマッチングの必要性を排除した新しいマッチングフリーなトレーニング手法を提案する。
このアプローチのコアとなるのは、Cross-Attention-based Query Selection (CAQS)モジュールです。
離散的な代入の代わりに、符号化された地下構造情報を用いて、クロスアテンション機構を通じてデコーダクエリを探索する。
クエリ結果と基底真理の間の重み付き誤差を最小化することにより、モデルはオブジェクトクエリと特定のターゲットの間の暗黙の対応を自律的に学習する。
この学習関係は、クエリの学習のための監視信号をさらに提供します。
実験の結果,提案手法は従来のマッチング処理を回避し,トレーニング効率を大幅に向上し,マッチング遅延を50%以上削減し,識別可能な対応学習による離散マッチングボトルネックを効果的に排除し,既存の最先端手法と比較して優れた性能を実現することができた。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Fractional Correspondence Framework in Detection Transformer [13.388933240897492]
Detection Transformer (DETR) はオブジェクト検出タスクのマッチングプロセスを大幅に単純化した。
このアルゴリズムは、予測された有界箱とトレーニング中の接地的アノテーションとの最適な1対1マッチングを容易にする。
本稿では,予測と地上の真実を整合させるコストを捉え,最も正確な対応を見つけるためのフレキシブルマッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:29:20Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Interpolation-based semi-supervised learning for object detection [44.37685664440632]
オブジェクト検出のための補間に基づく半教師付き学習手法を提案する。
提案した損失は、半教師付き学習と教師付き学習の性能を劇的に向上させる。
論文 参考訳(メタデータ) (2020-06-03T10:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。