論文の概要: How Does the Pretraining Distribution Shape In-Context Learning? Task Selection, Generalization, and Robustness
- arxiv url: http://arxiv.org/abs/2510.01163v1
- Date: Wed, 01 Oct 2025 17:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.701751
- Title: How Does the Pretraining Distribution Shape In-Context Learning? Task Selection, Generalization, and Robustness
- Title(参考訳): 環境学習における分布形状の事前学習法 : タスク選択・一般化・ロバスト性
- Authors: Waïss Azizian, Ali Hasan,
- Abstract要約: 計算課題における事前学習分布形状 ICL の統計的特性について述べる。
我々は,タスク選択と一般化を統一し,先行結果を拡張・短縮する理論的枠組みを開発する。
次に、課題タスクの事前学習分布によって、ICLの性能がどのように変化するかを実証的に研究する。
- 参考スコア(独自算出の注目度): 6.723482324209954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of in-context learning (ICL) in large language models (LLMs) remains poorly understood despite its consistent effectiveness, enabling models to adapt to new tasks from only a handful of examples. To clarify and improve these capabilities, we characterize how the statistical properties of the pretraining distribution (e.g., tail behavior, coverage) shape ICL on numerical tasks. We develop a theoretical framework that unifies task selection and generalization, extending and sharpening earlier results, and show how distributional properties govern sample efficiency, task retrieval, and robustness. To this end, we generalize Bayesian posterior consistency and concentration results to heavy-tailed priors and dependent sequences, better reflecting the structure of LLM pretraining data. We then empirically study how ICL performance varies with the pretraining distribution on challenging tasks such as stochastic differential equations and stochastic processes with memory. Together, these findings suggest that controlling key statistical properties of the pretraining distribution is essential for building ICL-capable and reliable LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)における文脈内学習(ICL)の出現は、その一貫した有効性にもかかわらず、まだ理解されていない。
これらの特徴を明らかにするために,計算課題における事前学習分布(例えば,尾の挙動,カバレッジ)の統計的性質を特徴付ける。
我々は,タスク選択と一般化を統一し,先行結果を拡張・強化する理論フレームワークを開発し,分布特性がサンプル効率,タスク検索,ロバスト性をどのように管理するかを示す。
そこで我々は,LLM事前学習データの構造をよりよく反映して,ベイズ的後続一貫性と濃度を重み付き先行および依存配列に一般化する。
次に、確率微分方程式やメモリ付き確率過程といった課題タスクの事前学習分布によって、ICLの性能がどのように変化するかを実証的に研究する。
これらの結果から,ICL対応かつ信頼性の高いLCMの構築には,事前学習分布の重要な統計特性の制御が不可欠であることが示唆された。
関連論文リスト
- Pretrain-Test Task Alignment Governs Generalization in In-Context Learning [39.98824138502169]
本研究は,ICLにおける事前学習タスクの構造が一般化をどのように支配するかを考察する。
線形回帰によるICLの可解モデルを用いて、高次元でのICL一般化誤差の正確な式を導出する。
本手法は解法モデルだけでなく非線形変換器においても直接ICL性能を予測する。
論文 参考訳(メタデータ) (2025-09-30T17:19:58Z) - A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search [15.387256204743407]
大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。
推論コストは、今やリソース全体の負担の重要かつ増大する要素である。
本稿では,学習したスキルグラフ上での推論を表現力として表現する一般的なフレームワークである有向スキルサーチ(DS3)を紹介する。
論文 参考訳(メタデータ) (2025-06-10T14:47:48Z) - Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [32.04523360747506]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Unlocking In-Context Learning for Natural Datasets Beyond Language Modelling [37.36879079951306]
大規模言語モデル(LLM)は文脈学習(ICL)を示す
ICLは自然言語のタスクやドメインに対して高速な適応を提供するが、テキスト以外のモダリティに対しては、その出現は簡単ではない。
ICLの重要な要素として、トレーニングデータ列における正確なトークン反復を同定する。
我々は、様々なビジュアルデータセットのためのICL機能をアンロックし、より困難な脳波分類タスクを、数ショットの学習システムで実行します。
論文 参考訳(メタデータ) (2025-01-09T09:45:05Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。