Fugu-MT 論文翻訳(概要): A Formal Framework for Understanding Length Generalization in Transformers

論文の概要: A Formal Framework for Understanding Length Generalization in Transformers

arxiv url: http://arxiv.org/abs/2410.02140v1
Date: Thu, 3 Oct 2024 01:52:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 08:35:44.717813
Title: A Formal Framework for Understanding Length Generalization in Transformers
Title（参考訳）: 変圧器における長さ一般化の形式的枠組み
Authors: Xinting Huang, Andy Yang, Satwik Bhattamishra, Yash Sarrof, Andreas Krebs, Hattie Zhou, Preetum Nakkiran, Michael Hahn,
Abstract要約: 因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
参考スコア（独自算出の注目度）: 14.15513446489798
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A major challenge for transformers is generalizing to sequences longer than those observed during training. While previous works have empirically shown that transformers can either succeed or fail at length generalization depending on the task, theoretical understanding of this phenomenon remains limited. In this work, we introduce a rigorous theoretical framework to analyze length generalization in causal transformers with learnable absolute positional encodings. In particular, we characterize those functions that are identifiable in the limit from sufficiently long inputs with absolute positional encodings under an idealized inference scheme using a norm-based regularizer. This enables us to prove the possibility of length generalization for a rich family of problems. We experimentally validate the theory as a predictor of success and failure of length generalization across a range of algorithmic and formal language tasks. Our theory not only explains a broad set of empirical observations but also opens the way to provably predicting length generalization capabilities in transformers.
Abstract（参考訳）: 変圧器の大きな課題は、トレーニング中に観察されたものよりも長いシーケンスに一般化することである。以前の研究は、変圧器はタスクによって成功するか、あるいは長大な一般化で失敗するかを実証的に示していたが、この現象の理論的理解は依然として限られている。本研究では,学習可能な絶対位置符号化を用いた因果変換器における長さ一般化解析のための厳密な理論的枠組みを提案する。特に、ノルムベースの正則化器を用いた理想化推論スキームの下で、絶対的な位置エンコーディングを持つ十分長い入力から極限で特定可能な関数を特徴付ける。これにより、豊富な問題族に対する長さ一般化の可能性を証明することができる。我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。我々の理論は、幅広い経験的観測のセットを説明するだけでなく、変圧器の長大一般化能力を予測するための道を開く。

関連論文リスト

Extrapolation by Association: Length Generalization Transfer in Transformers [29.659527141850436]
長さ一般化は関連するタスク間でテキスト転送可能であることを示す。この結果から, 変圧器モデルでは, 協調学習時に類似タスクから一般化能力を継承できることが示唆された。長さ一般化の伝達は,タスク間の同一の注目ヘッドの再使用と相関する,初期力学的な証拠を提供する。
論文参考訳（メタデータ） (2025-06-10T21:22:51Z)
Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文参考訳（メタデータ） (2025-05-29T16:30:30Z)
Born a Transformer -- Always a Transformer? [57.37263095476691]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文参考訳（メタデータ） (2025-05-27T21:36:50Z)
The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文参考訳（メタデータ） (2025-02-24T03:01:03Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count [19.148785141454642]
トランスフォーマーはしばしば長さの一般化に苦しむため、トレーニング中に遭遇したものよりも長いシーケンスに一般化できない。本研究は,算術変換器で最初に達成された2～3倍の長さのタスクを一般化する。
論文参考訳（メタデータ） (2024-10-21T08:49:51Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
Length Generalization of Causal Transformers without Position Encoding [59.802708262402824]
より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。位置符号化を伴わない変圧器長一般化特性について検討する。 NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。
論文参考訳（メタデータ） (2024-04-18T14:38:32Z)
Prompting a Pretrained Transformer Can Be a Universal Approximator [105.59562522323274]
従来考えられていたよりもはるかに小さな事前学習モデルでは,プレフィックスの場合には普遍近似が可能であることを示す。また、関数を所望の精度に近似するのに必要なプレフィックスの長さにジャクソン型境界を与える。
論文参考訳（メタデータ） (2024-02-22T18:12:48Z)
Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文参考訳（メタデータ） (2024-02-14T18:18:29Z)
On Provable Length and Compositional Generalization [7.883808173871223]
一般的なシーケンス・ツー・シーケンスモデルに対して、長さと合成の一般化に関する最初の証明可能な保証を提供する。これらの異なるアーキテクチャの制限容量バージョンは、長さと構成の一般化の両方を達成することを示す。
論文参考訳（メタデータ） (2024-02-07T14:16:28Z)
What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文参考訳（メタデータ） (2023-10-24T17:43:29Z)
From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers [7.011373967209572]
対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。 ABC を用いて,変圧器モデルにより,ある種の算術課題において,前例のないほぼ完全長の一般化を達成できることを実証する。
論文参考訳（メタデータ） (2023-10-18T14:10:47Z)
The Impact of Positional Encoding on Length Generalization in Transformers [50.48278691801413]
復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
論文参考訳（メタデータ） (2023-05-31T00:29:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。