論文の概要: Mr. DETR: Instructive Multi-Route Training for Detection Transformers
- arxiv url: http://arxiv.org/abs/2412.10028v1
- Date: Fri, 13 Dec 2024 10:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:45.448726
- Title: Mr. DETR: Instructive Multi-Route Training for Detection Transformers
- Title(参考訳): Mr. DETR:検出変圧器の指導的マルチルート訓練
- Authors: Chang-Bin Zhang, Yujie Zhong, Kai Han,
- Abstract要約: モデルをマルチタスクフレームワークとして扱い、同時に1対1と1対マニーの予測を行う。
本研究では,一対一予測のための一次経路と,一対多予測のための2つの補助訓練経路を特徴とする多経路学習機構を提案する。
- 参考スコア(独自算出の注目度): 25.750660729605748
- License:
- Abstract: Existing methods enhance the training of detection transformers by incorporating an auxiliary one-to-many assignment. In this work, we treat the model as a multi-task framework, simultaneously performing one-to-one and one-to-many predictions. We investigate the roles of each component in the transformer decoder across these two training targets, including self-attention, cross-attention, and feed-forward network. Our empirical results demonstrate that any independent component in the decoder can effectively learn both targets simultaneously, even when other components are shared. This finding leads us to propose a multi-route training mechanism, featuring a primary route for one-to-one prediction and two auxiliary training routes for one-to-many prediction. We enhance the training mechanism with a novel instructive self-attention that dynamically and flexibly guides object queries for one-to-many prediction. The auxiliary routes are removed during inference, ensuring no impact on model architecture or inference cost. We conduct extensive experiments on various baselines, achieving consistent improvements as shown in Figure 1.
- Abstract(参考訳): 既存の方法は、補助的な1対1の割り当てを組み込むことで、検出変圧器の訓練を強化する。
本研究では,モデルをマルチタスクフレームワークとして扱い,同時に1対1と1対マニーの予測を行う。
本稿では, トランスデコーダにおける各コンポーネントの役割を, 自己注意, クロスアテンション, フィードフォワードネットワークを含む2つのトレーニング対象に対して検討する。
実験の結果,デコーダ内の任意の独立したコンポーネントは,他のコンポーネントが共有されている場合でも,両方のターゲットを同時に学習できることがわかった。
そこで本研究では,1対1の予測のための一次経路と,1対多の予測のための2つの補助訓練経路を特徴とする多経路学習機構を提案する。
本研究では,オブジェクトクエリを動的かつ柔軟に誘導し,一対多の予測を行う,新しい自己意図による学習機構を強化する。
補助経路は推論中に取り除かれ、モデルアーキテクチャや推論コストに影響を与えない。
図1に示すように、さまざまなベースラインに対して広範な実験を行い、一貫した改善を実現しています。
関連論文リスト
- Structure Development in List-Sorting Transformers [0.0]
本研究では,一層アテンションのみの変換器が,数列のソートを学習しながら,関連する構造をどのように発達させるかを検討する。
トレーニングの終わりに、モデルは注意を2つのモードで整理し、語彙分割と複写圧縮と呼ぶ。
論文 参考訳(メタデータ) (2025-01-30T15:56:25Z) - CCF: Cross Correcting Framework for Pedestrian Trajectory Prediction [7.9449756510822915]
歩行者軌道の表現をより良く学習するためのクロスコレクション・フレームワーク(CCF)を提案する。
CCFは、時間的損失と軌道的予測損失の両方で訓練された2つの予測モデルで構成されている。
トランスをベースとしたエンコーダ・デコーダ・アーキテクチャを用いて歩行者間の動きや社会的相互作用を捉える。
論文 参考訳(メタデータ) (2024-06-02T14:07:13Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Pedestrian Behavior Prediction via Multitask Learning and Categorical
Interaction Modeling [13.936894582450734]
マルチモーダルデータに頼って歩行者の軌跡や行動を同時に予測するマルチタスク学習フレームワークを提案する。
本モデルでは, トラジェクティブと動作予測を最大22%, 6%向上させる。
論文 参考訳(メタデータ) (2020-12-06T15:57:11Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。