論文の概要: The Initialization Determines Whether In-Context Learning Is Gradient Descent
- arxiv url: http://arxiv.org/abs/2512.04268v1
- Date: Wed, 03 Dec 2025 21:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.885407
- Title: The Initialization Determines Whether In-Context Learning Is Gradient Descent
- Title(参考訳): インテクスト学習がグラディエント・ディフレッシュか? : 初期化決定
- Authors: Shifeng Xie, Rui Yuan, Simone Rossi, Thomas Hannagan,
- Abstract要約: 大規模言語モデル(LLM)における文脈内学習は目覚ましい現象であるが、その基盤となるメカニズムは部分的にのみ理解されている。
従来の作業は線形自己注意(LSA)と勾配降下(GD)を結びつける
訓練可能な初期推定 yq を用いた単一ヘッド LSA の単純な一般化である yq-LSA を導入する。
- 参考スコア(独自算出の注目度): 7.14677031804348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In-context learning (ICL) in large language models (LLMs) is a striking phenomenon, yet its underlying mechanisms remain only partially understood. Previous work connects linear self-attention (LSA) to gradient descent (GD), this connection has primarily been established under simplified conditions with zero-mean Gaussian priors and zero initialization for GD. However, subsequent studies have challenged this simplified view by highlighting its overly restrictive assumptions, demonstrating instead that under conditions such as multi-layer or nonlinear attention, self-attention performs optimization-like inference, akin to but distinct from GD. We investigate how multi-head LSA approximates GD under more realistic conditions specifically when incorporating non-zero Gaussian prior means in linear regression formulations of ICL. We first extend multi-head LSA embedding matrix by introducing an initial estimation of the query, referred to as the initial guess. We prove an upper bound on the number of heads needed for ICL linear regression setup. Our experiments confirm this result and further observe that a performance gap between one-step GD and multi-head LSA persists. To address this gap, we introduce yq-LSA, a simple generalization of single-head LSA with a trainable initial guess yq. We theoretically establish the capabilities of yq-LSA and provide experimental validation on linear regression tasks, thereby extending the theory that bridges ICL and GD. Finally, inspired by our findings in the case of linear regression, we consider widespread LLMs augmented with initial guess capabilities, and show that their performance is improved on a semantic similarity task.
- Abstract(参考訳): 大規模言語モデル(LLM)における文脈内学習(ICL)は目覚ましい現象であるが、その基盤となるメカニズムは部分的にしか理解されていない。
従来の研究は線形自己アテンション(LSA)と勾配降下(GD)を結び、この接続は主にゼロ平均ガウス事前とGDのゼロ初期化による単純化された条件の下で確立されてきた。
しかし、その後の研究は、過度に制限された仮定を強調し、代わりに多層性や非線型性といった条件下では、自己注意はGDと異なる最適化のような推論を行うことを示したことで、この単純化された見解に挑戦した。
ICLの線形回帰定式化において、非ゼロガウス事前手段を組み込んだ場合、マルチヘッドLSAがより現実的な条件下でどのようにGDを近似するかを検討する。
まず,初期推定と呼ばれるクエリの初期推定を導入することで,マルチヘッドLSA埋め込み行列を拡張した。
我々は、ICL線形回帰設定に必要なヘッド数について上限を証明した。
実験では, この結果を確認し, さらに, ワンステップGDとマルチヘッドLSAの差が持続することを示した。
このギャップに対処するために、訓練可能な初期推定 yq を用いた単一ヘッド LSA の単純な一般化である yq-LSA を導入する。
理論的には yq-LSA の機能を確立し,線形回帰問題に対する実験的検証を行い,ICL と GD を橋渡しする理論を拡張した。
最後に,線形回帰の場合の知見に触発されて,初期推定能力で拡張されたLLMを考察し,意味的類似性タスクにおいてそれらの性能が向上したことを示す。
関連論文リスト
- Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Semantic-Augmented Latent Topic Modeling with LLM-in-the-Loop [9.763247646329392]
Latent Dirichlet Allocation (LDA)は、文書コレクション内の抽象トピックを明らかにするために使用される顕著な生成確率モデルである。
本稿では,Large Language Models (LLMs) を用いたトピックモデルの拡張の有効性を,初期化とポストコレクションの2つの重要なフェーズに統合することによって検討する。
論文 参考訳(メタデータ) (2025-07-11T11:20:39Z) - On the Role of Transformer Feed-Forward Layers in Nonlinear In-Context Learning [31.908611830179108]
トランスフォーマーベースのモデルは、パラメータを更新せずに、いくつかのプロンプト例から目に見えないタスクに適応できる、コンテキスト内学習(ICL)の驚くべき能力を示す。
最近の研究は、トランスフォーマーがICLを実行する方法を示し、最適線形自己アテンション(LSA)機構が線形最小二乗目的に対して勾配勾配の1ステップを実現できることを示した。
論文 参考訳(メタデータ) (2025-01-30T07:41:20Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。