論文の概要: One-Layer Transformers are Provably Optimal for In-context Reasoning and Distributional Association Learning in Next-Token Prediction Tasks
- arxiv url: http://arxiv.org/abs/2505.15009v1
- Date: Wed, 21 May 2025 01:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.808399
- Title: One-Layer Transformers are Provably Optimal for In-context Reasoning and Distributional Association Learning in Next-Token Prediction Tasks
- Title(参考訳): 1層変圧器は次の予測課題におけるインコンテキスト推論と分散アソシエーション学習におそらく最適である
- Authors: Quan Nguyen, Thanh Nguyen-Tang,
- Abstract要約: そこで本研究では,一層変圧器の非雑音・雑音環境における近似能力と収束挙動について検討した。
我々の研究は、線形およびReLUの両方の注意を払って、確実にベイズ最適である一層変圧器のクラスが存在することを示すことによってギャップに対処する。
- 参考スコア(独自算出の注目度): 11.06955946904705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the approximation capabilities and on-convergence behaviors of one-layer transformers on the noiseless and noisy in-context reasoning of next-token prediction. Existing theoretical results focus on understanding the in-context reasoning behaviors for either the first gradient step or when the number of samples is infinite. Furthermore, no convergence rates nor generalization abilities were known. Our work addresses these gaps by showing that there exists a class of one-layer transformers that are provably Bayes-optimal with both linear and ReLU attention. When being trained with gradient descent, we show via a finite-sample analysis that the expected loss of these transformers converges at linear rate to the Bayes risk. Moreover, we prove that the trained models generalize to unseen samples as well as exhibit learning behaviors that were empirically observed in previous works. Our theoretical findings are further supported by extensive empirical validations.
- Abstract(参考訳): そこで本研究では,一層変圧器の非雑音・雑音環境における近似能力と収束挙動について検討した。
既存の理論的結果は、最初の勾配ステップまたはサンプルの数が無限である場合の文脈内推論の振る舞いを理解することに集中している。
さらに収束率や一般化能力は知られていない。
我々の研究は、線形およびReLUの両方の注意を払って、確実にベイズ最適である一層変圧器のクラスが存在することを示すことによって、これらのギャップに対処する。
勾配勾配下でのトレーニングでは, 有限サンプル解析により, これらの変圧器の損失が線形速度でベイズリスクに収束することを示した。
さらに、トレーニングされたモデルが、未確認サンプルに一般化し、過去の研究で経験的に観察された学習行動を示すことを証明した。
我々の理論的な知見は、広範な実証的検証によってさらに裏付けられている。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。