論文の概要: Integrating Diverse Assignment Strategies into DETRs
- arxiv url: http://arxiv.org/abs/2601.09247v1
- Date: Wed, 14 Jan 2026 07:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.312175
- Title: Integrating Diverse Assignment Strategies into DETRs
- Title(参考訳): ディバイスアサインメントストラテジをDETRに統合する
- Authors: Yiwei Zhang, Jin Gao, Hanshi Wang, Fudong Ge, Guan Luo, Weiming Hu, Zhipeng Zhang,
- Abstract要約: ラベル割り当ては、特にDETRスタイルのフレームワークにおいて、オブジェクト検出器において重要なコンポーネントである。
我々は,任意のDETR型検出器に多様な割り当て戦略をシームレスに統合する,フレキシブルで軽量なフレームワークであるLoRA-DETRを提案する。
- 参考スコア(独自算出の注目度): 61.61489761918158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Label assignment is a critical component in object detectors, particularly within DETR-style frameworks where the one-to-one matching strategy, despite its end-to-end elegance, suffers from slow convergence due to sparse supervision. While recent works have explored one-to-many assignments to enrich supervisory signals, they often introduce complex, architecture-specific modifications and typically focus on a single auxiliary strategy, lacking a unified and scalable design. In this paper, we first systematically investigate the effects of ``one-to-many'' supervision and reveal a surprising insight that performance gains are driven not by the sheer quantity of supervision, but by the diversity of the assignment strategies employed. This finding suggests that a more elegant, parameter-efficient approach is attainable. Building on this insight, we propose LoRA-DETR, a flexible and lightweight framework that seamlessly integrates diverse assignment strategies into any DETR-style detector. Our method augments the primary network with multiple Low-Rank Adaptation (LoRA) branches during training, each instantiating a different one-to-many assignment rule. These branches act as auxiliary modules that inject rich, varied supervisory gradients into the main model and are discarded during inference, thus incurring no additional computational cost. This design promotes robust joint optimization while maintaining the architectural simplicity of the original detector. Extensive experiments on different baselines validate the effectiveness of our approach. Our work presents a new paradigm for enhancing detectors, demonstrating that diverse ``one-to-many'' supervision can be integrated to achieve state-of-the-art results without compromising model elegance.
- Abstract(参考訳): ラベル割り当てはオブジェクト検出器において重要な要素であり、特にDETRスタイルのフレームワークでは、エンドツーエンドのエレガンスに拘わらず、1対1のマッチング戦略が緩やかな監督によって緩やかな収束に苦しむ。
最近の研究は、監視信号の強化のための一対多の割り当てを探索しているが、それらはしばしば複雑でアーキテクチャ固有の修正を導入し、通常は統一的でスケーラブルな設計を欠いた単一の補助戦略に焦点を当てている。
本稿ではまず,「一対一」の監督効果を体系的に検討し,パフォーマンス向上は監督の量ではなく,採用する課題戦略の多様性によってもたらされるという驚くべき洞察を明らかにする。
この発見は、よりエレガントでパラメータ効率の良いアプローチが達成可能であることを示唆している。
この知見に基づいて,任意のDETR型検出器に多様な割り当て戦略をシームレスに統合する,フレキシブルで軽量なフレームワークであるLoRA-DETRを提案する。
本手法はトレーニング中に複数のローランド適応(LoRA)分岐で一次ネットワークを拡張し,それぞれが異なる1対多の割り当てルールをインスタンス化する。
これらの分岐は、リッチで多様な監督的勾配をメインモデルに注入する補助モジュールとして機能し、推論中に破棄されるため、追加の計算コストは発生しない。
この設計は、元の検出器のアーキテクチャ的単純さを維持しながら、堅牢な共同最適化を促進する。
異なるベースラインに対する大規模な実験により、我々のアプローチの有効性が検証された。
そこで本研究では, モデルエレガンスを損なうことなく, 各種の‘one-to-Many’の監視を組み込むことにより, モデルエレガンスを損なうことなく, 最先端の成果を達成できることを実証した。
関連論文リスト
- AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Resolving Task Objective Conflicts in Unified Model via Task-Aware Mixture-of-Experts [11.790264535536965]
マルチモーダル・大規模言語モデル(MLLM)は、理解タスクと生成タスクを単一のフレームワークに統合する。
固有のタスク目的 理解における高レベルのセマンティックな抽象化と、生成時のきめ細かい詳細保存との間の対立は、重大な課題である。
タスク目的の衝突を解決するために,ARの内部コンポーネントを分離する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-04T05:44:21Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [88.55095746156428]
Retrieval-augmented Generation (RAG) は、外部知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントで構成されている。
本稿では,複数コンポーネントからなる複雑なRAGパイプラインを多エージェント協調作業として扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks [49.84182981950623]
RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
モダリティと堅牢な融合戦略の両方から特徴を効果的に抽出するだけでなく、スペクトルの相違といった問題に対処する能力も必要である。
本稿では,高パフォーマンス単一モードモデルのシームレスな最適化が可能な,効率的かつ容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:18:39Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Towards Discriminative Representation: Multi-view Trajectory Contrastive
Learning for Online Multi-object Tracking [1.0474108328884806]
本稿では,多視点トラジェクティブ・コントラスト学習という戦略を提案し,各トラジェクトリを中心ベクトルとして表現する。
推論段階では、軌道表現の質をさらに高めるために類似性誘導型特徴融合戦略を開発する。
我々の手法は先行トラッカーを超え、新しい最先端のパフォーマンスを確立した。
論文 参考訳(メタデータ) (2022-03-27T04:53:31Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。