論文の概要: Beyond Linear Attention: Softmax Transformers Implement In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.07333v1
- Date: Fri, 08 May 2026 06:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.865665
- Title: Beyond Linear Attention: Softmax Transformers Implement In-Context Reinforcement Learning
- Title(参考訳): 線形注意を超えて:Softmax変換器は文脈強化学習を実現する
- Authors: Zixuan Xie, Xinyu Liu, Claire Chen, Shuze Daniel Liu, Rohan Chandra, Shangtong Zhang,
- Abstract要約: インコンテキスト強化学習は、事前訓練後、パラメータを更新せずに追加コンテキストに条件付けすることで、新しいタスクに適応する。
本稿では、非現実的な線形注意を単純化することなく、ICRLに関する最初の理論的理解を提供する。
このようなソフトマックスの注意を持つトランスフォーマーの階層的に前方通過は、重み付きソフトマックス時間差(TD)学習アルゴリズムの反復更新と等価であることを示す。
- 参考スコア(独自算出の注目度): 26.624140780367103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context reinforcement learning (ICRL) studies agents that, after pretraining, adapt to new tasks by conditioning on additional context without parameter updates. Existing theoretical analyses of ICRL largely rely on linear attention, which replaces the softmax function in the standard attention with an identity mapping. This paper provides the first theoretical understanding of ICRL without making the unrealistic linear attention simplification. In particular, we consider the standard softmax attention used in practice. We show that, with certain parameters, the layerwise forward pass of a Transformer with such softmax attention is equivalent to iterative updates of a weighted softmax temporal difference (TD) learning algorithm. Here, weighted softmax TD is a new RL algorithm that performs policy evaluation in kernel space and adopts both linear TD and tabular TD as special cases. We also prove that under a certain contraction condition, the policy evaluation error decays as the number of layers grows, with the identified parameters above. Finally, we prove that those parameters are a global minimizer of a pretraining loss, explaining their emergence in our numerical experiments.
- Abstract(参考訳): インコンテキスト強化学習(ICRL)は、事前訓練後、パラメータを更新せずに追加コンテキストに条件付けすることで、新しいタスクに適応するエージェントを研究する。
ICRLの既存の理論的解析は、標準注意におけるソフトマックス関数をアイデンティティマッピングに置き換える線形注意に大きく依存している。
本稿では、非現実的な線形注意を単純化することなく、ICRLに関する最初の理論的理解を提供する。
特に,実際に使用されるソフトマックスの標準的注意力について考察する。
このようなソフトマックスの注意を持つトランスフォーマーの階層的に前方通過は、重み付きソフトマックス時間差(TD)学習アルゴリズムの反復更新と等価であることを示す。
ここで、重み付きソフトマックスTDは、カーネル空間におけるポリシー評価を行う新しいRLアルゴリズムであり、特別なケースとして線形TDと表型TDの両方を採用する。
また, ある収縮条件下では, 層数が増加するにつれて政策評価誤差が減少し, 上記のパラメータが得られた。
最後に、これらのパラメータが事前学習損失の世界的な最小化要因であることを証明し、数値実験におけるそれらの出現を説明する。
関連論文リスト
- Dynamic Rank Reinforcement Learning for Adaptive Low-Rank Multi-Head Self Attention in Large Language Models [0.0]
大規模言語モデル(LLM)におけるマルチヘッド自己認識(MHSA)の低ランク分解を適応的に最適化する新しいフレームワークである動的ランク強化学習(DR-RL)を提案する。
DR-RLは、浮動小数点演算(FLOP)を著しく低減しつつ、フルランクアテンションと統計的に等価な下流精度を維持している
この研究は、MHSAの適応効率と理論的厳密さのギャップを埋め、リソース制約の深層学習におけるランク低減技術に代えて、原理的に数学的に基礎付けられた代替手段を提供する。
論文 参考訳(メタデータ) (2025-12-17T21:09:19Z) - Softmax as Linear Attention in the Large-Prompt Regime: a Measure-based Perspective [16.076157672455867]
有限プロンプトと無限プロンプトの両方の下で単層ソフトマックスアテンションを研究するための測度に基づくフレームワークを開発する。
すなわち、ガウスの入力に対しては、ソフトマックス作用素が無限プロンプト極限に収束し、基底となる入力-token測度に作用する線型作用素に収束するという事実に頼っている。
論文 参考訳(メタデータ) (2025-12-12T18:54:52Z) - Statistical Advantage of Softmax Attention: Insights from Single-Location Regression [0.0]
大規模言語モデルにおける代替案に対するソフトマックスの優位性について検討する。
ソフトマックスがベイズリスクを達成するのに対し、線形注意は基本的に不足していることを示す。
勾配に基づくアルゴリズムによる最適化の関連について論じる。
論文 参考訳(メタデータ) (2025-09-26T06:21:30Z) - Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Enhancing Classifier Conservativeness and Robustness by Polynomiality [23.099278014212146]
我々はその状況をいかに改善できるかを示す。
直接的に関連し、単純で、しかし重要な技術的ノベルティは、SoftRmaxです。
我々は,ソフトRmaxの2つの側面,保守性,本質的な頑健性は,逆正則化につながることを示した。
論文 参考訳(メタデータ) (2022-03-23T19:36:19Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。