論文の概要: A Simple Generalisation of the Implicit Dynamics of In-Context Learning
- arxiv url: http://arxiv.org/abs/2512.11255v1
- Date: Fri, 12 Dec 2025 03:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.64382
- Title: A Simple Generalisation of the Implicit Dynamics of In-Context Learning
- Title(参考訳): インテクスト学習におけるインシシットダイナミクスの簡易的一般化
- Authors: Francesco Innocenti, El Mehdi Achour,
- Abstract要約: In-context Learning (ICL) とは、モデルがパラメータを更新することなく、入力中の例から新しいタスクを学習する能力である。
変換器ブロックの抽象化は、コンテキストに応じてフィードフォワードネットワークの重みを暗黙的に更新するように見える。
単純な文脈内線形回帰タスクに関する我々の理論を実証的に検証し、ブロック内およびブロック間の異なるトークンに関連する暗黙的な更新の関係について検討する。
- 参考スコア(独自算出の注目度): 4.268422949754082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) refers to the ability of a model to learn new tasks from examples in its input without any parameter updates. In contrast to previous theories of ICL relying on toy models and data settings, recently it has been shown that an abstraction of a transformer block can be seen as implicitly updating the weights of its feedforward network according to the context (Dherin et al., 2025). Here, we provide a simple generalisation of this result for (i) all sequence positions beyond the last, (ii) any transformer block beyond the first, and (iii) more realistic residual blocks including layer normalisation. We empirically verify our theory on simple in-context linear regression tasks and investigate the relationship between the implicit updates related to different tokens within and between blocks. These results help to bring the theory of Dherin et al. (2025) even closer to practice, with potential for validation on large-scale models.
- Abstract(参考訳): In-context Learning (ICL) とは、モデルがパラメータを更新することなく、入力中の例から新しいタスクを学習する能力である。
ICLが玩具モデルやデータ設定に依存していた従来の理論とは対照的に、近年ではコンテクストに応じてフィードフォワードネットワークの重みを暗黙的に更新するものとして、トランスフォーマーブロックの抽象化が見られる(Dherin et al , 2025)。
ここでは、この結果を簡単に一般化する。
(i)最後の以上の全ての順序位置
(ii)第1の以上の変圧器ブロック及び
(iii)層正規化を含むより現実的な残留ブロック。
単純な文脈内線形回帰タスクに関する我々の理論を実証的に検証し,ブロック内およびブロック間の異なるトークンに関する暗黙的な更新の関係について検討する。
これらの結果は、Dherin et al (2025) の理論をさらに実践に近づけるのに役立ち、大規模モデルに対する検証の可能性を秘めている。
関連論文リスト
- Provable In-Context Vector Arithmetic via Retrieving Task Concepts [53.685764040547625]
クロスエントロピー損失に対する勾配降下による非線形残差変圧器の訓練は,ベクトル演算による実-リコールICLタスクをいかに行うかを示す。
これらの結果は、静的埋め込み前駆体よりもトランスフォーマーの利点を解明する。
論文 参考訳(メタデータ) (2025-08-13T13:54:44Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - Can Transformers Learn Full Bayesian Inference in Context? [13.479322264788367]
本稿では,コンテクストでよく使用される統計モデルに対して,変圧器が完全なベイズ推定を行うことができることを示す。
本稿では,従来のネットワークと連続正規化フローのアイデアを基盤とした汎用フレームワークを提案する。
実世界のデータセットに対する実験により、我々のICLアプローチは、最先端MCMCや変分推論手法と品質が類似した後部サンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-01-28T10:04:53Z) - Re-examining learning linear functions in context [4.126494564662494]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文 参考訳(メタデータ) (2024-11-18T10:58:46Z) - Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of
Overparameterized Machine Learning [37.01683478234978]
機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する科学的な疑問を数多く提起している。
最も重要なライドルの1つは、パラメータ化されたモデルの優れた経験的一般化である。
論文 参考訳(メタデータ) (2021-09-06T10:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。