論文の概要: Quantitative Bounds for Length Generalization in Transformers
- arxiv url: http://arxiv.org/abs/2510.27015v1
- Date: Thu, 30 Oct 2025 21:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.91889
- Title: Quantitative Bounds for Length Generalization in Transformers
- Title(参考訳): 変圧器の長さ一般化のための定量境界
- Authors: Zachary Izzo, Eshaan Nichani, Jason D. Lee,
- Abstract要約: 変圧器における長さ一般化(LG)問題について検討する。
LGは、長い列上の変圧器の内部挙動が短い列上の振舞いによって「シミュレート」できるときに発生する。
- 参考スコア(独自算出の注目度): 58.175107357008876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of length generalization (LG) in transformers: the ability of a model trained on shorter sequences to maintain performance when evaluated on much longer, previously unseen inputs. Prior work by Huang et al. (2025) established that transformers eventually achieve length generalization once the training sequence length exceeds some finite threshold, but left open the question of how large it must be. In this work, we provide the first quantitative bounds on the required training length for length generalization to occur. Motivated by previous empirical and theoretical work, we analyze LG in several distinct problem settings: $\ell_\infty$ error control vs. average error control over an input distribution, infinite-precision softmax attention vs. finite-precision attention (which reduces to an argmax) in the transformer, and one- vs. two-layer transformers. In all scenarios, we prove that LG occurs when the internal behavior of the transformer on longer sequences can be "simulated" by its behavior on shorter sequences seen during training. Our bounds give qualitative estimates for the length of training data required for a transformer to generalize, and we verify these insights empirically. These results sharpen our theoretical understanding of the mechanisms underlying extrapolation in transformers, and formalize the intuition that richer training data is required for generalization on more complex tasks.
- Abstract(参考訳): 変換器における長さ一般化 (LG) の問題について検討し, 従来は見つからなかった長い入力に対して, 短いシーケンスで訓練したモデルが, 性能を維持する能力について検討した。
Huang et al (2025) による以前の研究は、トレーニングシーケンスの長さが有限しきい値を超えると、トランスフォーマーは最終的に長さの一般化を達成すると定めていたが、どの程度の大きさでなければならないのかという疑問を解き放った。
本研究は,長さ一般化に必要なトレーニング長に関する最初の定量的境界を提供する。
従来の経験的および理論的な研究により、LGは入力分布上の平均エラー制御と平均エラー制御、変圧器における無限精度ソフトマックスアテンション対有限精度アテンション(argmaxに還元する)、一対二層トランスという、いくつかの異なる問題設定で分析した。
あらゆるシナリオにおいて、LGは、長い列上の変換器の内部挙動が、トレーニング中に見られる短い列上の振舞いによって「シミュレーション」できるときに発生することを証明している。
我々の限界は、変換器が一般化するために必要なトレーニングデータの長さを定性的に推定し、これらの知見を実証的に検証する。
これらの結果は、トランスにおける外挿のメカニズムの理論的理解を深め、より複雑なタスクを一般化するために、よりリッチなトレーニングデータが必要であるという直感を形式化する。
関連論文リスト
- Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities [58.742178800799614]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - On Vanishing Variance in Transformer Length Generalization [23.706900145711913]
また,今日のフロンティアモデルにおいても,より長いシーケンス長はマルチヘッドアテンションモジュールの出力のばらつきを減少させることを示した。
分析では, この改善は分散の消失による分布シフトを完全に排除したものではないものの, 削減したと考えられる。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。
予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。
本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文 参考訳(メタデータ) (2025-02-24T03:01:03Z) - A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。
我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文 参考訳(メタデータ) (2024-10-03T01:52:01Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers [7.011373967209572]
対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。
ABC を用いて,変圧器モデルにより,ある種の算術課題において,前例のないほぼ完全長の一般化を達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-18T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。