論文の概要: Statistical Advantage of Softmax Attention: Insights from Single-Location Regression
- arxiv url: http://arxiv.org/abs/2509.21936v1
- Date: Fri, 26 Sep 2025 06:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.230767
- Title: Statistical Advantage of Softmax Attention: Insights from Single-Location Regression
- Title(参考訳): ソフトマックス注意の統計的アドバンテージ:単一位置回帰からの考察
- Authors: O. Duranthon, P. Marion, C. Boyer, B. Loureiro, L. Zdeborová,
- Abstract要約: 大規模言語モデルにおける代替案に対するソフトマックスの優位性について検討する。
ソフトマックスがベイズリスクを達成するのに対し、線形注意は基本的に不足していることを示す。
勾配に基づくアルゴリズムによる最適化の関連について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models rely on attention mechanisms with a softmax activation. Yet the dominance of softmax over alternatives (e.g., component-wise or linear) remains poorly understood, and many theoretical works have focused on the easier-to-analyze linearized attention. In this work, we address this gap through a principled study of the single-location regression task, where the output depends on a linear transformation of a single input token at a random location. Building on ideas from statistical physics, we develop an analysis of attention-based predictors in the high-dimensional limit, where generalization performance is captured by a small set of order parameters. At the population level, we show that softmax achieves the Bayes risk, whereas linear attention fundamentally falls short. We then examine other activation functions to identify which properties are necessary for optimal performance. Finally, we analyze the finite-sample regime: we provide an asymptotic characterization of the test error and show that, while softmax is no longer Bayes-optimal, it consistently outperforms linear attention. We discuss the connection with optimization by gradient-based algorithms.
- Abstract(参考訳): 大規模言語モデルは、ソフトマックスアクティベーションを備えた注意機構に依存している。
しかし、選択肢に対するソフトマックスの優位性(例えば、成分量や線形性)は未だ理解されておらず、多くの理論的な研究は、より容易に解析できる線形化の注意に焦点を当てている。
本研究では,単一入力トークンのランダムな位置での線形変換に依存する単一位置回帰タスクの原理的な研究を通じて,このギャップに対処する。
統計物理学のアイデアに基づいて,高次元極限における注意に基づく予測器の解析を開発し,その一般化性能を少数の順序パラメータで捉える。
人口レベルでは、ソフトマックスがベイズリスクを達成するのに対し、線形注意は基本的に不足していることを示す。
次に、他のアクティベーション関数を調べ、どの特性が最適な性能に必要かを特定する。
最後に、有限サンプル状態の解析を行い、テスト誤差の漸近的特徴づけを提供し、ソフトマックスはもはやベイズ最適ではないが、線形の注意を常に上回ることを示す。
勾配に基づくアルゴリズムによる最適化の関連について論じる。
関連論文リスト
- In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Revisiting Logistic-softmax Likelihood in Bayesian Meta-Learning for Few-Shot Classification [4.813254903898101]
ロジスティック・ソフトマックスは、多クラスガウス過程分類におけるソフトマックス可能性の代替としてしばしば用いられる。
我々は,温度パラメータによるテクティタ事前信頼度を制御できるロジスティック・ソフトマックスの可能性を再検討し,再検討する。
提案手法では, 精度の高い不確実性推定値が得られ, 標準ベンチマークデータセットにおいて, 同等あるいは優れた結果が得られる。
論文 参考訳(メタデータ) (2023-10-16T13:20:13Z) - Efficient and Near-Optimal Smoothed Online Learning for Generalized
Linear Functions [28.30744223973527]
我々は,K-wise線形分類において,統計学的に最適なログ(T/sigma)の後悔を初めて楽しむ計算効率のよいアルゴリズムを提案する。
一般化線形分類器によって誘導される不一致領域の幾何学の新たな特徴付けを開発する。
論文 参考訳(メタデータ) (2022-05-25T21:31:36Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency [83.02999769628593]
強化学習におけるオフ・ポリティィ・アセスメント(OPE)の理論的特徴について述べる。
ミニマックス法により、重みと品質関数の高速収束を実現することができることを示す。
非タブラル環境における1次効率を持つ最初の有限サンプル結果を示す。
論文 参考訳(メタデータ) (2021-02-05T03:20:39Z) - Fundamental Limits of Ridge-Regularized Empirical Risk Minimization in
High Dimensions [41.7567932118769]
経験的リスク最小化アルゴリズムは、様々な推定や予測タスクで広く利用されている。
本稿では,コンベックスEMMの統計的精度に関する基礎的限界を推論のために初めて特徴づける。
論文 参考訳(メタデータ) (2020-06-16T04:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。