論文の概要: Delayed Attention Training Improves Length Generalization in Transformer--RNN Hybrids
- arxiv url: http://arxiv.org/abs/2510.00258v1
- Date: Tue, 30 Sep 2025 20:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.245857
- Title: Delayed Attention Training Improves Length Generalization in Transformer--RNN Hybrids
- Title(参考訳): 遅延注意訓練は変圧器-RNNハイブリッドの長さ一般化を改善する
- Authors: Buu Phan, Reza Ebrahimi, Sanjay Haresh, Roland Memisevic,
- Abstract要約: 本研究では、状態追跡と連想的リコールの両方を含む複合問題に対して、シーケンスモデルにおける長さ一般化について検討する。
更新されたネットワークは状態トラッキングをうまく処理するが、リコールに苦労する。
我々は,この効果を緩和し,長さ一般化性能を大幅に向上させる,シンプルで効果的なトレーニング戦略,すなわち注意層のトレーニングを遅らせる手法を提案する。
- 参考スコア(独自算出の注目度): 8.159215234052573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study length generalization in sequence models on a composite problem involving both state tracking and associative recall. Prior work finds that recurrent networks handle state tracking well but struggle with recall, whereas Transformers excel at recall yet fail to extend state-tracking capabilities to longer sequences. Motivated by the complementary strengths of these architectures, we construct hybrid models integrating recurrent and attention-based components, and train them on the combined task to evaluate whether both capabilities can be preserved. Our results reveal that, in such hybrids, the Transformer component tends to exploit shortcut solutions, leading to poor length generalization. We identify this shortcut reliance as a key obstacle and propose a simple yet effective training strategy -- delaying the training of the attention layers -- that mitigates this effect and significantly improves length generalization performance. Our experiments show that this approach enables hybrid models to achieve near-perfect accuracy ($>90\%$) on hybrid sequences three times longer than those used during training.
- Abstract(参考訳): 本研究では、状態追跡と連想的リコールの両方を含む複合問題に対して、シーケンスモデルにおける長さ一般化について検討する。
以前の作業では、リカレントネットワークは状態トラッキングをうまく扱うが、リコールに苦労している。
これらのアーキテクチャの相補的な強みによって、繰り返しおよび注意に基づくコンポーネントを統合したハイブリッドモデルを構築し、両方の機能を保持できるかどうかを評価するために、それらを組み合わせたタスクで訓練する。
以上の結果から,Transformer コンポーネントはショートカットの手法を利用する傾向があることが判明した。
我々は、このショートカット依存を重要な障害として認識し、この効果を軽減し、長さ一般化性能を大幅に改善する、シンプルで効果的なトレーニング戦略である注意層のトレーニングを遅らせることを提案する。
実験の結果, ハイブリッドモデルでは, トレーニング中に使用したモデルに比べて3倍の精度で, ほぼ完全精度(>90\%$)が得られることがわかった。
関連論文リスト
- Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。
本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:01:13Z) - Boosting Adversarial Training via Fisher-Rao Norm-based Regularization [9.975998980413301]
本稿では,ロバスト性と精度のトレードオフを軽減するため,LOAT(Logit-Oriented Adversarial Training)と呼ばれる新たな正規化フレームワークを提案する。
実験により,提案した正規化戦略により,有意な対向学習アルゴリズムの性能が向上することを示した。
論文 参考訳(メタデータ) (2024-03-26T09:22:37Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Adversarial Imitation Learning with Trajectorial Augmentation and
Correction [61.924411952657756]
本稿では,拡張軌道の成功を保った新しい拡張手法を提案する。
我々は, 合成専門家を用いた模倣エージェントの訓練を行うために, 逆データ拡張模倣アーキテクチャを開発した。
実験により,我々のデータ拡張戦略は,敵対的模倣の精度と収束時間を向上できることが示された。
論文 参考訳(メタデータ) (2021-03-25T14:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。