論文の概要: Next-token pretraining implies in-context learning
- arxiv url: http://arxiv.org/abs/2505.18373v1
- Date: Fri, 23 May 2025 21:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.377096
- Title: Next-token pretraining implies in-context learning
- Title(参考訳): 次トーケン事前学習は文脈内学習を意味する
- Authors: Paul M. Riechers, Henry R. Bigelow, Eric A. Alt, Adam Shai,
- Abstract要約: トークンシーケンス、特に非エルゴディックソースでトレーニングされた場合、モデルがどのようにコンテキストに適応するかを示す。
我々の情報理論フレームワークは、これらの分布内ICLダイナミクスを正確に予測する。
また、任意のタスクにおけるモデルのコンテキスト内性能が、事前学習で見られるタスクのアンサンブルと数学的に結合していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We argue that in-context learning (ICL) predictably arises from standard self-supervised next-token pretraining, rather than being an exotic emergent property. This work establishes the foundational principles of this emergence by focusing on in-distribution ICL, demonstrating how models necessarily adapt to context when trained on token sequences, especially from non-ergodic sources. Our information-theoretic framework precisely predicts these in-distribution ICL dynamics (i.e., context-dependent loss reduction). We verify this with experiments using synthetic datasets of differing types of correlational structure, reproducing characteristic phenomena like phase transitions in training loss for induction head formation and power-law scaling of in-context loss. We further show that a model's in-context performance on any task is mathematically coupled to the ensemble of tasks seen in pretraining, offering a fundamental explanation, grounded in architecture- and modality-independent principles, for such inference-time learning.
- Abstract(参考訳): In-context Learning (ICL) は、エキゾチックな創発的特性ではなく、標準的な自己指導型次段階の事前学習から予測可能となると論じる。
この研究は、トークンシーケンス、特に非エルゴディックソースでトレーニングされた場合、モデルがコンテキストに適応するために必要な方法を示す、分散 ICL に焦点を当てることによって、この出現の基本的な原則を確立します。
我々の情報理論フレームワークは、これらの分布内ICLダイナミクス(文脈依存損失低減)を正確に予測する。
本研究では,異なるタイプの相関構造の合成データセットを用いて実験を行い,誘導頭部形成のためのトレーニング損失における位相遷移のような特性現象を再現し,コンテキスト内損失のパワー・ロースケーリングを行った。
さらに、任意のタスクにおけるモデルのコンテキスト内性能が、事前学習で見られるタスクの集合と数学的に結合していることを示し、そのような推論時間学習のためのアーキテクチャとモダリティに依存しない原則に基づく基本的な説明を提供する。
関連論文リスト
- Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Sequential Representation Learning via Static-Dynamic Conditional Disentanglement [58.19137637859017]
本稿では,ビデオ中の時間非依存要因と時間変化要因を分離することに着目し,逐次的データ内での自己教師付き不整合表現学習について検討する。
本稿では,静的/動的変数間の因果関係を明示的に考慮し,それらの因子間の通常の独立性仮定を破る新しいモデルを提案する。
実験により、提案手法は、シーンのダイナミックスが内容に影響されるシナリオにおいて、従来の複雑な最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-10T17:04:39Z) - Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。
フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。