論文の概要: A Framework for Quantifying How Pre-Training and Context Benefit In-Context Learning
- arxiv url: http://arxiv.org/abs/2510.22594v1
- Date: Sun, 26 Oct 2025 09:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.258058
- Title: A Framework for Quantifying How Pre-Training and Context Benefit In-Context Learning
- Title(参考訳): 文脈学習における事前学習とコンテキストベネフィットの定量化フレームワーク
- Authors: Bingqing Song, Jiaxiang Li, Rong Wang, Songtao Lu, Mingyi Hong,
- Abstract要約: 現実的な設定のクラスにおいて,ICLの性能を解析するための新しいフレームワークを提案する。
我々は、ICL性能と文脈長、および事前訓練と問合せタスク分布のKL分散の正確な関係を導出する。
- 参考スコア(独自算出の注目度): 52.07397258423034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large language models have demonstrated a strong ability to learn from context, known as in-context learning (ICL). Despite a surge of recent applications that leverage such capabilities, it is by no means clear, at least theoretically, how the ICL capabilities arise, and in particular, what is the precise role played by key factors such as pre-training procedure as well as context construction. In this work, we propose a new framework to analyze the ICL performance, for a class of realistic settings, which includes network architectures, data encoding, data generation, and prompt construction process. As a first step, we construct a simple example with a one-layer transformer, and show an interesting result, namely when the pre-train data distribution is different from the query task distribution, a properly constructed context can shift the output distribution towards the query task distribution, in a quantifiable manner, leading to accurate prediction on the query topic. We then extend the findings in the previous step to a more general case, and derive the precise relationship between ICL performance, context length and the KL divergence between pre-train and query task distribution. Finally, we provide experiments to validate our theoretical results.
- Abstract(参考訳): 事前訓練された大規模言語モデルは、コンテキスト学習(ICL)として知られるコンテキストから学習する強力な能力を示している。
このような機能を利用する最近のアプリケーションの増加にもかかわらず、少なくとも理論的には、ICLの能力がどのように発生し、特に、事前学習手順やコンテキスト構築といった重要な要素が果たす正確な役割がどのようなものかは明らかになっていない。
本研究では、ネットワークアーキテクチャ、データエンコーディング、データ生成、即時構築プロセスを含む現実的な設定のクラスに対して、ICLの性能を解析するための新しいフレームワークを提案する。
最初のステップとして、1層トランスを用いた簡単な例を構築し、クエリタスク分布と事前学習データ分布が異なる場合、適切に構成されたコンテキストがクエリタスク分布へ定量的に出力分布をシフトし、クエリトピックの正確な予測につながる興味深い結果を示す。
次に、前ステップで得られた結果をより一般的なケースに拡張し、ICL性能、文脈長、および事前訓練とクエリタスク分布のKL分散の正確な関係を導出する。
最後に,理論結果の検証実験を行う。
関連論文リスト
- Predicting Task Performance with Context-aware Scaling Laws [56.6850444554434]
本稿では、トレーニング計算と提供されたコンテキストの関数として、下流のパフォーマンスを協調的にモデル化する、単純かつ解釈可能なフレームワークを提案する。
我々は,Llama-2-7BおよびLlama-2-13Bの拡張コンテキスト変種について,観測された下流性能に適合させることで,我々の枠組みを実証的に検証した。
以上の結果から,我々のフレームワークは,配信中のダウンストリーム性能を正確にモデル化し,トレーニング計算において3桁の規模で一般化し,コンテキストの増大とともに性能を確実に外挿することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:35:18Z) - How Does the Pretraining Distribution Shape In-Context Learning? Task Selection, Generalization, and Robustness [6.723482324209954]
計算課題における事前学習分布形状 ICL の統計的特性について述べる。
我々は,タスク選択と一般化を統一し,先行結果を拡張・短縮する理論的枠組みを開発する。
次に、課題タスクの事前学習分布によって、ICLの性能がどのように変化するかを実証的に研究する。
論文 参考訳(メタデータ) (2025-10-01T17:52:29Z) - Pretrain-Test Task Alignment Governs Generalization in In-Context Learning [39.98824138502169]
本研究は,ICLにおける事前学習タスクの構造が一般化をどのように支配するかを考察する。
線形回帰によるICLの可解モデルを用いて、高次元でのICL一般化誤差の正確な式を導出する。
本手法は解法モデルだけでなく非線形変換器においても直接ICL性能を予測する。
論文 参考訳(メタデータ) (2025-09-30T17:19:58Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。