論文の概要: Scaling Laws and In-Context Learning: A Unified Theoretical Framework
- arxiv url: http://arxiv.org/abs/2511.06232v1
- Date: Sun, 09 Nov 2025 05:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.827219
- Title: Scaling Laws and In-Context Learning: A Unified Theoretical Framework
- Title(参考訳): 法則のスケーリングと文脈学習 - 統一理論フレームワーク
- Authors: Sushant Mehta, Ishan Gupta,
- Abstract要約: インコンテキスト学習(ICL)により、大規模な言語モデルでは、パラメータ更新なしでデモから新しいタスクに適応することができる。
変換器におけるスケーリング法則とICLの出現を結合する統一理論的枠組みを提案する。
ICLの性能はモデル深度$L$, 幅$d$, コンテキスト長$k$, トレーニングデータ$D$, タスク構造によって決定される指数に従うことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) enables large language models to adapt to new tasks from demonstrations without parameter updates. Despite extensive empirical studies, a principled understanding of ICL emergence at scale remains more elusive. We present a unified theoretical framework connecting scaling laws to ICL emergence in transformers. Our analysis establishes that ICL performance follows power-law relationships with model depth $L$, width $d$, context length $k$, and training data $D$, with exponents determined by task structure. We show that under specific conditions, transformers implement gradient-based metalearning in their forward pass, with an effective learning rate $\eta_{\text{eff}} = \Theta(1/\sqrt{Ld})$. We demonstrate sharp phase transitions at critical scales and derive optimal depth-width allocations favoring $L^* \propto N^{2/3}$, $d^* \propto N^{1/3}$ for the fixed parameter budget $N = Ld$. Systematic experiments on synthetic tasks validate our predictions, with measured scaling exponents closely matching theory. This work provides both necessary and sufficient conditions for the emergence of ICLs and establishes fundamental computational limits on what transformers can learn in-context.
- Abstract(参考訳): インコンテキスト学習(ICL)により、大規模言語モデルでは、パラメータ更新なしでデモから新しいタスクに適応することができる。
広範な実証研究にもかかわらず、ICLの規模での出現に関する原則的な理解はいまだに解明されていない。
変換器におけるスケーリング法則とICLの出現を結合する統一理論的枠組みを提案する。
我々の分析では、ICL性能はモデル深度$L$、幅$d$、コンテキスト長$k$、およびトレーニングデータ$D$と、タスク構造によって決定される指数によるパワー-法則関係に従うことが判明した。
特定の条件下では、トランスフォーマーは、学習率$\eta_{\text{eff}} = \Theta(1/\sqrt{Ld})$で勾配に基づくメタラーニングをフォワードパスで実装する。
我々は臨界スケールでの鋭い位相遷移を示し、固定パラメータ予算$N = Ld$に対して$L^* \propto N^{2/3}$, $d^* \propto N^{1/3}$を最適な深さ幅の割り当てを導出する。
合成タスクに関する体系的な実験は、測定されたスケーリング指数を密にマッチングする理論を用いて、我々の予測を検証する。
この研究は、ICLの出現に必要な条件と十分な条件の両方を提供し、トランスフォーマーが文脈内で学べるものに関する基本的な計算限界を確立する。
関連論文リスト
- Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Bayesian scaling laws for in-context learning [85.34114399339741]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者に近似していることを示し、ICCの新しいベイズスケーリング法を生み出した。
我々のスケーリング法則は既存のスケーリング法則と精度で一致し、タスクの優先順位、学習効率、サンプルごとの確率の解釈可能な用語も提供します。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers [30.145669421100965]
In-Context Learningは、大きな言語モデルの強力な創発的特性である。
線形化変圧器ネットワークでは, バイアス項を含めることで, ICLを明示的かつ永続的にすることができることを示す。
我々のアルゴリズム(ICLCA)は、正確な変換を安価に行うことができる。
論文 参考訳(メタデータ) (2024-06-05T01:47:40Z) - Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。
理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文 参考訳(メタデータ) (2024-05-24T00:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。