論文の概要: Length Generalization Bounds for Transformers
- arxiv url: http://arxiv.org/abs/2603.02238v1
- Date: Fri, 13 Feb 2026 14:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.104901
- Title: Length Generalization Bounds for Transformers
- Title(参考訳): 変圧器の長大一般化境界
- Authors: Andy Yang, Pascal Bergsträßer, Georg Zetzsche, David Chiang, Anthony W. Lin,
- Abstract要約: 長さ一般化は、任意の長さの入力に対する正確な予測を可能にする学習アルゴリズムの重要な特性である。
このような保証を得るためには、モデルが一般化されることを保証した長さ一般化境界を計算できる必要がある。
本稿では,変換器に密接な関係を持つ言語クラスであるCRASPに対して,そのような一般化境界の計算可能性に関するオープンな問題について述べる。
- 参考スコア(独自算出の注目度): 9.186207021992535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Length generalization is a key property of a learning algorithm that enables it to make correct predictions on inputs of any length, given finite training data. To provide such a guarantee, one needs to be able to compute a length generalization bound, beyond which the model is guaranteed to generalize. This paper concerns the open problem of the computability of such generalization bounds for CRASP, a class of languages which is closely linked to transformers. A positive partial result was recently shown by Chen et al. for CRASP with only one layer and, under some restrictions, also with two layers. We provide complete answers to the above open problem. Our main result is the non-existence of computable length generalization bounds for CRASP (already with two layers) and hence for transformers. To complement this, we provide a computable bound for the positive fragment of CRASP, which we show equivalent to fixed-precision transformers. For both positive CRASP and fixed-precision transformers, we show that the length complexity is exponential, and prove optimality of the bounds.
- Abstract(参考訳): 長さ一般化は、有限のトレーニングデータから任意の長さの入力を正確に予測できる学習アルゴリズムの重要な性質である。
このような保証を得るためには、モデルが一般化されることを保証した長さ一般化境界を計算できる必要がある。
本稿では,変換器に密接な関係を持つ言語クラスであるCRASPに対して,そのような一般化境界の計算可能性に関するオープンな問題について述べる。
CRASPの正の部分的な結果は、Chenらによって最近示され、1つの層と、いくつかの制限の下では、2つの層で示された。
上記のオープンな問題に対する完全な答えを提供する。
我々の主な成果は、計算可能な長さ一般化境界がCRASP(既に2つの層を持つ)に対して存在せず、したがって変換器に対して存在することである。
これを補うために、CRASPの正のフラグメントに対して計算可能なバウンダリを提供し、これは固定精度変換器と等価であることを示す。
正のCRASPと固定精度変換器の両方に対して、長さの複雑さは指数関数であり、境界の最適性を証明する。
関連論文リスト
- Generalization Bounds for Transformer Channel Decoders [61.55280736553095]
本稿では,ECCTの一般化性能を学習理論の観点から検討する。
我々の知る限りでは、この研究はこの種のデコーダに対する最初の理論的一般化保証を提供する。
論文 参考訳(メタデータ) (2026-01-11T15:56:37Z) - Quantitative Bounds for Length Generalization in Transformers [58.175107357008876]
変圧器における長さ一般化(LG)問題について検討する。
LGは、長い列上の変圧器の内部挙動が短い列上の振舞いによって「シミュレート」できるときに発生する。
論文 参考訳(メタデータ) (2025-10-30T21:31:36Z) - The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。
予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。
本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文 参考訳(メタデータ) (2025-02-24T03:01:03Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - Sequence Length Independent Norm-Based Generalization Bounds for
Transformers [21.2523248114561]
本稿では,入力シーケンス長に依存しないトランスフォーマーアーキテクチャに対して,ノルムに基づく一般化境界を提供する。
変換器のラデマッハ複雑性の上界への有界線型変換の関数クラスに対して、3つの新しい被覆数境界を用いる。
論文 参考訳(メタデータ) (2023-10-19T18:31:09Z) - From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers [7.011373967209572]
対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。
ABC を用いて,変圧器モデルにより,ある種の算術課題において,前例のないほぼ完全長の一般化を達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-18T14:10:47Z) - Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。
我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文 参考訳(メタデータ) (2023-07-05T13:59:35Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。