論文の概要: Delayed Attention Training Improves Length Generalization in Transformer--RNN Hybrids
- arxiv url: http://arxiv.org/abs/2510.00258v1
- Date: Tue, 30 Sep 2025 20:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.245857
- Title: Delayed Attention Training Improves Length Generalization in Transformer--RNN Hybrids
- Title(参考訳): 遅延注意訓練は変圧器-RNNハイブリッドの長さ一般化を改善する
- Authors: Buu Phan, Reza Ebrahimi, Sanjay Haresh, Roland Memisevic,
- Abstract要約: 本研究では、状態追跡と連想的リコールの両方を含む複合問題に対して、シーケンスモデルにおける長さ一般化について検討する。
更新されたネットワークは状態トラッキングをうまく処理するが、リコールに苦労する。
我々は,この効果を緩和し,長さ一般化性能を大幅に向上させる,シンプルで効果的なトレーニング戦略,すなわち注意層のトレーニングを遅らせる手法を提案する。
- 参考スコア(独自算出の注目度): 8.159215234052573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study length generalization in sequence models on a composite problem involving both state tracking and associative recall. Prior work finds that recurrent networks handle state tracking well but struggle with recall, whereas Transformers excel at recall yet fail to extend state-tracking capabilities to longer sequences. Motivated by the complementary strengths of these architectures, we construct hybrid models integrating recurrent and attention-based components, and train them on the combined task to evaluate whether both capabilities can be preserved. Our results reveal that, in such hybrids, the Transformer component tends to exploit shortcut solutions, leading to poor length generalization. We identify this shortcut reliance as a key obstacle and propose a simple yet effective training strategy -- delaying the training of the attention layers -- that mitigates this effect and significantly improves length generalization performance. Our experiments show that this approach enables hybrid models to achieve near-perfect accuracy ($>90\%$) on hybrid sequences three times longer than those used during training.
- Abstract(参考訳): 本研究では、状態追跡と連想的リコールの両方を含む複合問題に対して、シーケンスモデルにおける長さ一般化について検討する。
以前の作業では、リカレントネットワークは状態トラッキングをうまく扱うが、リコールに苦労している。
これらのアーキテクチャの相補的な強みによって、繰り返しおよび注意に基づくコンポーネントを統合したハイブリッドモデルを構築し、両方の機能を保持できるかどうかを評価するために、それらを組み合わせたタスクで訓練する。
以上の結果から,Transformer コンポーネントはショートカットの手法を利用する傾向があることが判明した。
我々は、このショートカット依存を重要な障害として認識し、この効果を軽減し、長さ一般化性能を大幅に改善する、シンプルで効果的なトレーニング戦略である注意層のトレーニングを遅らせることを提案する。
実験の結果, ハイブリッドモデルでは, トレーニング中に使用したモデルに比べて3倍の精度で, ほぼ完全精度(>90\%$)が得られることがわかった。
関連論文リスト
- Distill-then-Replace: Efficient Task-Specific Hybrid Attention Model Construction [3.9660062354591754]
トランスフォーマーアーキテクチャは、密度の高いフルアテンションによって最先端の精度を提供するが、その2次時間とメモリの複雑さは、実用的なデプロイメントを制限している。
線形アテンションメカニズムは、線形またはニア線形スケーリングを提供するが、しばしば性能劣化を引き起こす。
我々は,対象タスクの検証性能を監視しながら,すべての注意ブロックを線形に置き換える,欲求層置換戦略を導入する。
これにより、コストのかかる再トレーニングやニューラルアーキテクチャ検索を必要とせず、単一の効率的なパスでタスク固有のハイブリッドモデルが得られ、さまざまな下流タスクのために事前トレーニングされたフルアテンションバックボーンに適用できる。
論文 参考訳(メタデータ) (2026-01-16T02:01:40Z) - DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models [51.76664843721462]
DeepThinkVLAはVision-Language-Actionモデルのための新しいアーキテクチャである。
因果的注意を伴うシーケンシャルCoTを生成し、双方向の注意に切り替え、アクションベクトルを高速に復号する。
LIBEROベンチマークで97.0%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-31T05:26:16Z) - The Kinetics of Reasoning: How Chain-of-Thought Shapes Learning in Transformers? [25.29458951592086]
チェーン・オブ・シント(CoT)の監督はトランスフォーマーの性能を大幅に向上させることができる。
シンボリック推論タスクにおけるトランスフォーマーの事前学習により、これらの学習ダイナミクスをグラクキングのレンズを通して検討する。
論文 参考訳(メタデータ) (2025-10-28T20:14:26Z) - RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors [54.81109375939306]
RGE-GSは、拡散に基づく生成と報酬誘導ガウス積分を相乗化する新しい拡張的再構築フレームワークである。
本稿では,復元フェーズに先立って一貫したパターンを識別・優先順位付けする報奨ネットワークを提案する。
復元過程において,シーン収束度に応じてガウス最適化の進捗を自動的に調整する学習戦略を考案した。
論文 参考訳(メタデータ) (2025-06-28T08:02:54Z) - Cross-Attention Speculative Decoding [20.999323581400336]
最先端の投機的復号法は自己アテンションに基づくトランスフォーマーデコーダに依存しており、しばしば補助的なプーリングや融合層で拡張される。
本稿では,有向型トランスフォーマーデコーダSDモデルであるBudget Eagleについて述べる。
また,ブロックレベルの注意シナリオにおいて,学習の安定性と収束効率を向上する新しい手法である2段階ブロック注意訓練を提案する。
論文 参考訳(メタデータ) (2025-05-30T12:52:35Z) - Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。
本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:01:13Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Boosting Adversarial Training via Fisher-Rao Norm-based Regularization [9.975998980413301]
本稿では,ロバスト性と精度のトレードオフを軽減するため,LOAT(Logit-Oriented Adversarial Training)と呼ばれる新たな正規化フレームワークを提案する。
実験により,提案した正規化戦略により,有意な対向学習アルゴリズムの性能が向上することを示した。
論文 参考訳(メタデータ) (2024-03-26T09:22:37Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Adversarial Imitation Learning with Trajectorial Augmentation and
Correction [61.924411952657756]
本稿では,拡張軌道の成功を保った新しい拡張手法を提案する。
我々は, 合成専門家を用いた模倣エージェントの訓練を行うために, 逆データ拡張模倣アーキテクチャを開発した。
実験により,我々のデータ拡張戦略は,敵対的模倣の精度と収束時間を向上できることが示された。
論文 参考訳(メタデータ) (2021-03-25T14:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。