論文の概要: Softmax $\geq$ Linear: Transformers may learn to classify in-context by kernel gradient descent
- arxiv url: http://arxiv.org/abs/2510.10425v1
- Date: Sun, 12 Oct 2025 03:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.933576
- Title: Softmax $\geq$ Linear: Transformers may learn to classify in-context by kernel gradient descent
- Title(参考訳): Softmax $\geq$ Linear: トランスフォーマーは、カーネルの勾配勾配によって、コンテキスト内での分類を学ぶことができる
- Authors: Sara Dragutinović, Andrew M. Saxe, Aaditya K. Singh,
- Abstract要約: コンテクストから学習するために、トランスフォーマーが使用する学習アルゴリズムを理解することに注力する。
トランスフォーマーは、カーネル機能空間の関数ではあるものの、コンテキスト内で勾配降下を習うことができる。
これらの理論的な知見は,ソフトマックスに対する文脈適応性の向上を示唆している。
- 参考スコア(独自算出の注目度): 17.629377639287775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable ability of transformers to learn new concepts solely by reading examples within the input prompt, termed in-context learning (ICL), is a crucial aspect of intelligent behavior. Here, we focus on understanding the learning algorithm transformers use to learn from context. Existing theoretical work, often based on simplifying assumptions, has primarily focused on linear self-attention and continuous regression tasks, finding transformers can learn in-context by gradient descent. Given that transformers are typically trained on discrete and complex tasks, we bridge the gap from this existing work to the setting of classification, with non-linear (importantly, softmax) activation. We find that transformers still learn to do gradient descent in-context, though on functionals in the kernel feature space and with a context-adaptive learning rate in the case of softmax transformer. These theoretical findings suggest a greater adaptability to context for softmax attention, which we empirically verify and study through ablations. Overall, we hope this enhances theoretical understanding of in-context learning algorithms in more realistic settings, pushes forward our intuitions and enables further theory bridging to larger models.
- Abstract(参考訳): インコンテキスト学習(ICL)と呼ばれる入力プロンプト内の例を読むことでのみ新しい概念を学習するトランスフォーマーの顕著な能力は、知的行動の重要な側面である。
ここでは、文脈から学習するために変換器が使用する学習アルゴリズムを理解することに焦点を当てる。
既存の理論的な研究は、しばしば仮定を単純化することに基づいており、主に線形自己アテンションと連続回帰タスクに焦点を当てており、変圧器は勾配降下によって文脈内で学習することができる。
変圧器は通常、離散的で複雑なタスクで訓練されているので、この既存の作業から、非線型(重要なソフトマックス)アクティベーションによる分類の設定へのギャップを埋める。
カーネルの特徴空間における関数と、ソフトマックス変換器の場合の文脈適応学習率に基づいて、変換器は文脈内で勾配降下を学習する。
これらの理論的な知見は,軟弱感に対する文脈適応性の向上を示唆するものである。
全体として、これがより現実的な環境での文脈内学習アルゴリズムの理論的理解を高め、我々の直感を押し進め、より大きなモデルへのさらなる理論ブリッジを可能にすることを願っている。
関連論文リスト
- On the Robustness of Transformers against Context Hijacking for Linear Classification [26.1838836907147]
Transformer-based Large Language Models (LLM) は、強力なコンテキスト内学習能力を実証している。
それらは、コンテキストハイジャックとして知られる、事実的に正しいコンテキストによって破壊される。
十分に訓練された深部変圧器は、経験的観測と整合した高い強靭性を実現することができることを示す。
論文 参考訳(メタデータ) (2025-02-21T17:31:00Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context [44.949726166566236]
非線形変換器は自然に関数空間の勾配降下を実装することを学習する。
また、非線形活性化の最適選択は、学習すべき関数のクラスに自然に依存していることも示している。
論文 参考訳(メタデータ) (2023-12-11T17:05:25Z) - A Closer Look at In-Context Learning under Distribution Shifts [24.59271215602147]
線形回帰の単純かつ基本的なタスクのレンズから、文脈内学習の一般性と限界をよりよく理解することを目的としている。
変圧器とセットベース分布の両方が, 正規最小二乗(OLS)の性能をより密にエミュレートし, 文脈内学習による分布評価を行うことがわかった。
トランスフォーマーはまた、セットベースの分散がフェーターとなる、軽微な分散シフトに対するレジリエンスも向上している。
論文 参考訳(メタデータ) (2023-05-26T07:47:21Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。