論文の概要: Understanding and Improving Length Generalization in Recurrent Models
- arxiv url: http://arxiv.org/abs/2507.02782v1
- Date: Thu, 03 Jul 2025 16:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.670347
- Title: Understanding and Improving Length Generalization in Recurrent Models
- Title(参考訳): リカレントモデルにおける長さ一般化の理解と改善
- Authors: Ricardo Buitrago Ruiz, Albert Gu,
- Abstract要約: リカレントモデルは任意に長いシーケンスを処理できますが、そのパフォーマンスはトレーニングコンテキストの長さを超える場合があります。
トレーニング中のモデルが,到達可能な状態の分布の限られた部分集合にのみ露出した場合に,モデルが一般化されないことを示す。
モデルが訓練されている状態のカバレッジを高めるための簡単な訓練介入について検討する。
- 参考スコア(独自算出の注目度): 16.642157805072042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, recurrent models such as state space models and linear attention have become popular due to their linear complexity in the sequence length. Thanks to their recurrent nature, in principle they can process arbitrarily long sequences, but their performance sometimes drops considerably beyond their training context lengths-i.e. they fail to length generalize. In this work, we provide comprehensive empirical and theoretical analysis to support the unexplored states hypothesis, which posits that models fail to length generalize when during training they are only exposed to a limited subset of the distribution of all attainable states (i.e. states that would be attained if the recurrence was applied to long sequences). Furthermore, we investigate simple training interventions that aim to increase the coverage of the states that the model is trained on, e.g. by initializing the state with Gaussian noise or with the final state of a different input sequence. With only 500 post-training steps ($\sim 0.1\%$ of the pre-training budget), these interventions enable length generalization for sequences that are orders of magnitude longer than the training context (e.g. $2k\longrightarrow 128k$) and show improved performance in long context tasks, thus presenting a simple and efficient way to enable robust length generalization in general recurrent models.
- Abstract(参考訳): 近年, 状態空間モデルや線形アテンションなどのリカレントモデルが一般的になっている。
その繰り返しの性質のおかげで、原則として任意の長さのシーケンスを処理できるが、そのパフォーマンスはトレーニングコンテキストの長さを超えることがある。
本研究では、学習中にモデルが拡張できないことを仮定し、すべての到達可能な状態の分布の限られた部分集合(つまり、反復が長い列に適用された場合に達成される状態)にのみ露出する、という未探索状態仮説を支持するための総合的な経験的および理論的分析を提供する。
さらに,ガウス雑音による初期化や,異なる入力シーケンスの最終的な状態によって,モデルがトレーニングされている状態のカバレッジを高めることを目的とした,簡単なトレーニング介入についても検討する。
トレーニング後の500ステップ (\sim 0.1\%$ of the pre-training budget) のみで、これらの介入により、トレーニングコンテキストよりも桁長のシーケンス(例: 2k\longrightarrow 128k$)の長大化が可能になり、長いコンテキストタスクのパフォーマンスが向上し、一般的なリカレントモデルにおいて堅牢な長大化を実現するためのシンプルで効率的な方法が提示される。
関連論文リスト
- Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test [19.213961869113188]
7B大言語モデル(LLM)の1パス事前学習(OLMoE)におけるチェックポイントのグルーキングに関する最初の研究を行う。
我々の研究は、大規模な基礎モデルの事前学習において、グルーキングが依然として発生していることを初めて確認した。
経路距離と1つの経路の複雑さを定量化する2つの新しい指標を開発した。
論文 参考訳(メタデータ) (2025-06-26T17:59:58Z) - Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [51.03144354630136]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:40:08Z) - Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Grokking at the Edge of Linear Separability [1.024113475677323]
本研究では,ロジスティック分類の長期的ダイナミクスを,定数ラベルを持つランダム特徴モデルを用いて解析する。
線形分離性の頂点にあるトレーニングセットに分類を適用すると、Grokkingが増幅されることが分かる。
論文 参考訳(メタデータ) (2024-10-06T14:08:42Z) - On Provable Length and Compositional Generalization [7.883808173871223]
一般的なシーケンス・ツー・シーケンスモデルに対して、長さと合成の一般化に関する最初の証明可能な保証を提供する。
これらの異なるアーキテクチャのエンハン制限容量バージョンは、長さと構成の一般化の両方を達成することを示す。
論文 参考訳(メタデータ) (2024-02-07T14:16:28Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。