論文の概要: Theory of Scaling Laws for In-Context Regression: Depth, Width, Context and Time
- arxiv url: http://arxiv.org/abs/2510.01098v1
- Date: Wed, 01 Oct 2025 16:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.674207
- Title: Theory of Scaling Laws for In-Context Regression: Depth, Width, Context and Time
- Title(参考訳): 文脈回帰のスケーリング法則の理論:深さ・幅・文脈・時間
- Authors: Blake Bordelon, Mary I. Letey, Cengiz Pehlevan,
- Abstract要約: 深層線形自己注意モデルにおける線形回帰の文脈内学習(ICL)について検討する。
文脈長が制限された場合、深度はICL性能にのみ寄与する。
これは、トランスの幅と深さの両方に依存するニューラルスケーリング法則の、新しい解決可能なトイモデルを提供する。
- 参考スコア(独自算出の注目度): 46.62978305402496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study in-context learning (ICL) of linear regression in a deep linear self-attention model, characterizing how performance depends on various computational and statistical resources (width, depth, number of training steps, batch size and data per context). In a joint limit where data dimension, context length, and residual stream width scale proportionally, we analyze the limiting asymptotics for three ICL settings: (1) isotropic covariates and tasks (ISO), (2) fixed and structured covariance (FS), and (3) where covariances are randomly rotated and structured (RRS). For ISO and FS settings, we find that depth only aids ICL performance if context length is limited. Alternatively, in the RRS setting where covariances change across contexts, increasing the depth leads to significant improvements in ICL, even at infinite context length. This provides a new solvable toy model of neural scaling laws which depends on both width and depth of a transformer and predicts an optimal transformer shape as a function of compute. This toy model enables computation of exact asymptotics for the risk as well as derivation of powerlaws under source/capacity conditions for the ICL tasks.
- Abstract(参考訳): 深層線形自己アテンションモデルにおける線形回帰の文脈内学習(ICL)について検討し,様々な計算資源や統計資源(幅,深さ,トレーニングステップ数,バッチサイズ,コンテキスト毎のデータ)による性能評価を行った。
データ次元、文脈長、残ストリーム幅が比例する結合極限において、(1)等方的共変量およびタスク(ISO)、(2)固定構造共変(FS)、(3)共変をランダムに回転・構造化する(RRS)という3つのICL設定の漸近を解析する。
ISO や FS の設定では,コンテキスト長が制限された場合にのみ深度が ICL のパフォーマンスに寄与することが分かる。
あるいは、コンテキスト間で共分散が変化するRS設定では、深さが大きくなると、無限のコンテキスト長であってもICLが大幅に改善される。
これは、トランスの幅と深さに依存するニューラルスケーリング法則の新たな解決可能な玩具モデルを提供し、計算関数として最適なトランスフォーマー形状を予測する。
この玩具モデルは、ICLタスクのソース/キャパシティ条件下でのパワーローの導出とともに、リスクに対する正確な漸近の計算を可能にする。
関連論文リスト
- Asymptotic Study of In-context Learning with Random Transformers through Equivalent Models [8.135786025034626]
非線形回帰の設定において,事前学習したトランスフォーマーの文脈内学習能力について検討する。
ランダムトランスフォーマーはICL誤差の観点から有限次ヘルミットモデルと等価に振る舞うことを示す。
論文 参考訳(メタデータ) (2025-09-18T16:57:27Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Entropy-Informed Weighting Channel Normalizing Flow [7.751853409569806]
正規化および機能依存の$mathttShuffle$演算を提案し,それをバニラマルチスケールアーキテクチャに統合する。
このような操作はエントロピー増加方向の変数を誘導するので、$mathttShuffle$演算をemphEntropy-Informed Weighting Channel Normalizing Flow (EIW-Flow)と呼ぶNFを参照する。
論文 参考訳(メタデータ) (2024-07-06T04:46:41Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Deep Neural Networks for Nonparametric Interaction Models with Diverging
Dimension [6.939768185086753]
成長次元シナリオ (d$ grows with $n$ but at a slow rate) と高次元 (dgtrsim n$) の両方において、$kth$オーダーの非パラメトリック相互作用モデルを分析する。
特定の標準仮定の下では、デバイアスドディープニューラルネットワークは、$(n, d)$の両面において、極小値の最適値を達成している。
論文 参考訳(メタデータ) (2023-02-12T04:19:39Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。