論文の概要: A Simple Generalisation of the Implicit Dynamics of In-Context Learning
- arxiv url: http://arxiv.org/abs/2512.11255v1
- Date: Fri, 12 Dec 2025 03:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.64382
- Title: A Simple Generalisation of the Implicit Dynamics of In-Context Learning
- Title(参考訳): インテクスト学習におけるインシシットダイナミクスの簡易的一般化
- Authors: Francesco Innocenti, El Mehdi Achour,
- Abstract要約: In-context Learning (ICL) とは、モデルがパラメータを更新することなく、入力中の例から新しいタスクを学習する能力である。
変換器ブロックの抽象化は、コンテキストに応じてフィードフォワードネットワークの重みを暗黙的に更新するように見える。
単純な文脈内線形回帰タスクに関する我々の理論を実証的に検証し、ブロック内およびブロック間の異なるトークンに関連する暗黙的な更新の関係について検討する。
- 参考スコア(独自算出の注目度): 4.268422949754082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) refers to the ability of a model to learn new tasks from examples in its input without any parameter updates. In contrast to previous theories of ICL relying on toy models and data settings, recently it has been shown that an abstraction of a transformer block can be seen as implicitly updating the weights of its feedforward network according to the context (Dherin et al., 2025). Here, we provide a simple generalisation of this result for (i) all sequence positions beyond the last, (ii) any transformer block beyond the first, and (iii) more realistic residual blocks including layer normalisation. We empirically verify our theory on simple in-context linear regression tasks and investigate the relationship between the implicit updates related to different tokens within and between blocks. These results help to bring the theory of Dherin et al. (2025) even closer to practice, with potential for validation on large-scale models.
- Abstract(参考訳): In-context Learning (ICL) とは、モデルがパラメータを更新することなく、入力中の例から新しいタスクを学習する能力である。
ICLが玩具モデルやデータ設定に依存していた従来の理論とは対照的に、近年ではコンテクストに応じてフィードフォワードネットワークの重みを暗黙的に更新するものとして、トランスフォーマーブロックの抽象化が見られる(Dherin et al , 2025)。
ここでは、この結果を簡単に一般化する。
(i)最後の以上の全ての順序位置
(ii)第1の以上の変圧器ブロック及び
(iii)層正規化を含むより現実的な残留ブロック。
単純な文脈内線形回帰タスクに関する我々の理論を実証的に検証し,ブロック内およびブロック間の異なるトークンに関する暗黙的な更新の関係について検討する。
これらの結果は、Dherin et al (2025) の理論をさらに実践に近づけるのに役立ち、大規模モデルに対する検証の可能性を秘めている。
関連論文リスト
- Provable In-Context Vector Arithmetic via Retrieving Task Concepts [53.685764040547625]
クロスエントロピー損失に対する勾配降下による非線形残差変圧器の訓練は,ベクトル演算による実-リコールICLタスクをいかに行うかを示す。
これらの結果は、静的埋め込み前駆体よりもトランスフォーマーの利点を解明する。
論文 参考訳(メタデータ) (2025-08-13T13:54:44Z) - Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - Can Transformers Learn Full Bayesian Inference in Context? [13.479322264788367]
本稿では,コンテクストでよく使用される統計モデルに対して,変圧器が完全なベイズ推定を行うことができることを示す。
本稿では,従来のネットワークと連続正規化フローのアイデアを基盤とした汎用フレームワークを提案する。
実世界のデータセットに対する実験により、我々のICLアプローチは、最先端MCMCや変分推論手法と品質が類似した後部サンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-01-28T10:04:53Z) - Re-examining learning linear functions in context [4.126494564662494]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文 参考訳(メタデータ) (2024-11-18T10:58:46Z) - Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。