論文の概要: Softmax as Linear Attention in the Large-Prompt Regime: a Measure-based Perspective
- arxiv url: http://arxiv.org/abs/2512.11784v1
- Date: Fri, 12 Dec 2025 18:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.877987
- Title: Softmax as Linear Attention in the Large-Prompt Regime: a Measure-based Perspective
- Title(参考訳): 大型ロケットレジームにおける線形注意としてのソフトマックス:測度に基づく視点
- Authors: Etienne Boursier, Claire Boyer,
- Abstract要約: 有限プロンプトと無限プロンプトの両方の下で単層ソフトマックスアテンションを研究するための測度に基づくフレームワークを開発する。
すなわち、ガウスの入力に対しては、ソフトマックス作用素が無限プロンプト極限に収束し、基底となる入力-token測度に作用する線型作用素に収束するという事実に頼っている。
- 参考スコア(独自算出の注目度): 16.076157672455867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Softmax attention is a central component of transformer architectures, yet its nonlinear structure poses significant challenges for theoretical analysis. We develop a unified, measure-based framework for studying single-layer softmax attention under both finite and infinite prompts. For i.i.d. Gaussian inputs, we lean on the fact that the softmax operator converges in the infinite-prompt limit to a linear operator acting on the underlying input-token measure. Building on this insight, we establish non-asymptotic concentration bounds for the output and gradient of softmax attention, quantifying how rapidly the finite-prompt model approaches its infinite-prompt counterpart, and prove that this concentration remains stable along the entire training trajectory in general in-context learning settings with sub-Gaussian tokens. In the case of in-context linear regression, we use the tractable infinite-prompt dynamics to analyze training at finite prompt length. Our results allow optimization analyses developed for linear attention to transfer directly to softmax attention when prompts are sufficiently long, showing that large-prompt softmax attention inherits the analytical structure of its linear counterpart. This, in turn, provides a principled and broadly applicable toolkit for studying the training dynamics and statistical behavior of softmax attention layers in large prompt regimes.
- Abstract(参考訳): ソフトマックス・アテンションは変圧器アーキテクチャの中心的な構成要素であるが、その非線形構造は理論解析において重要な課題となっている。
有限プロンプトと無限プロンプトの両方の下で単層ソフトマックスアテンションを研究するための統一された測度ベースのフレームワークを開発する。
すなわち、ガウスの入力に対しては、ソフトマックス作用素が無限プロンプト極限に収束し、基底となる入力-token測度に作用する線型作用素に収束するという事実に頼っている。
この知見に基づいて,ソフトマックスアテンションの出力および勾配に対する非漸近集中境界を確立し,有限プロンプトモデルが無限プロンプトモデルにいかに早く接近するかを定量化し,この濃度が一般のガウストークンを用いたテキスト内学習設定においてトレーニング軌道全体に沿って安定であることを証明する。
文脈内線形回帰の場合、有限プロンプト長でのトレーニングを解析するために、トラクタブル無限プロンプト力学を用いる。
提案手法により, 線形の注意が十分に長い場合, ソフトマックスの注意に直接伝達するように最適化し, 大規模軟マックスの注意が線形の注意構造を継承することを示す。
これは、大きなプロンプト状態におけるソフトマックスアテンション層のトレーニング力学と統計的挙動を研究するための、原則的かつ広く適用可能なツールキットを提供する。
関連論文リスト
- Statistical Advantage of Softmax Attention: Insights from Single-Location Regression [0.0]
大規模言語モデルにおける代替案に対するソフトマックスの優位性について検討する。
ソフトマックスがベイズリスクを達成するのに対し、線形注意は基本的に不足していることを示す。
勾配に基づくアルゴリズムによる最適化の関連について論じる。
論文 参考訳(メタデータ) (2025-09-26T06:21:30Z) - On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective [3.1044138971639743]
ソフトマックス注意の主な欠点は、シーケンス長に関する二次記憶要件と計算複雑性である。
ソフトマックスの非線形性を置き換えることで、ソフトマックスの2次ボトルネックを回避するために、線形アテンションや同様の手法が導入された。
本研究は,線形アテンションがソフトマックスアテンションの繰り返し形式を導出することにより,ソフトマックスアテンションの近似であることを示す。
論文 参考訳(メタデータ) (2025-07-31T15:10:03Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。