論文の概要: Towards Auto-Regressive Next-Token Prediction: In-Context Learning Emerges from Generalization
- arxiv url: http://arxiv.org/abs/2502.17024v1
- Date: Mon, 24 Feb 2025 10:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:38.131819
- Title: Towards Auto-Regressive Next-Token Prediction: In-Context Learning Emerges from Generalization
- Title(参考訳): 自己回帰型次世代予測に向けて:一般化からのインテクスト学習
- Authors: Zixuan Gong, Xiaolin Hu, Huayi Tang, Yong Liu,
- Abstract要約: 大規模言語モデル(LLM)は、文脈内学習能力を顕著に示している。
本稿では,ICLの出現と事前学習がICLに与える影響について検討する。
我々の理論は、数値線形力学系、合成GINC、実世界の言語データセットの実験によって支持されている。
- 参考スコア(独自算出の注目度): 26.9153121765435
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable in-context learning (ICL) abilities. However, existing theoretical analysis of ICL primarily exhibits two limitations: (a) Limited i.i.d. Setting. Most studies focus on supervised function learning tasks where prompts are constructed with i.i.d. input-label pairs. This i.i.d. assumption diverges significantly from real language learning scenarios where prompt tokens are interdependent. (b) Lack of Emergence Explanation. Most literature answers what ICL does from an implicit optimization perspective but falls short in elucidating how ICL emerges and the impact of pre-training phase on ICL. In our paper, to extend (a), we adopt a more practical paradigm, auto-regressive next-token prediction (AR-NTP), which closely aligns with the actual training of language models. Specifically, within AR-NTP, we emphasize prompt token-dependency, which involves predicting each subsequent token based on the preceding sequence. To address (b), we formalize a systematic pre-training and ICL framework, highlighting the layer-wise structure of sequences and topics, alongside a two-level expectation. In conclusion, we present data-dependent, topic-dependent and optimization-dependent PAC-Bayesian generalization bounds for pre-trained LLMs, investigating that ICL emerges from the generalization of sequences and topics. Our theory is supported by experiments on numerical linear dynamic systems, synthetic GINC and real-world language datasets.
- Abstract(参考訳): 大規模言語モデル (LLM) は、目覚ましい文脈内学習(ICL)能力を示している。
しかし、既存の ICL の理論解析では、主に2つの制限がある。
(a)限定i.i.d.設定
ほとんどの研究は、インプットとラベルのペアでプロンプトが構築される教師付き関数学習タスクに焦点を当てている。
この仮定は、プロンプトトークンが相互依存する実際の言語学習シナリオとは大きく異なる。
b)創発説明の欠如
ほとんどの文献は、暗黙の最適化の観点からICLが何をするかを答えているが、ICLがどのように出現し、事前学習フェーズがICLに与える影響を解明するには不十分である。
我々の論文では、拡張するために
a) より実践的なパラダイムである自己回帰的次世代予測(AR-NTP)を採用し、言語モデルの実際の訓練と密接に一致している。
具体的には、AR-NTP内では、先行シーケンスに基づいて各トークンを予測するプロンプトトークン依存性を強調する。
宛て
b) 体系的な事前学習およびICLフレームワークを定式化し,2段階の予測とともにシーケンスとトピックの階層構造を強調した。
結論として,データ依存,トピック依存,最適化依存のPAC-ベイジアン一般化境界を事前学習したLCMに対して提示し,ICCがシーケンスやトピックの一般化から現れることを検証した。
我々の理論は、数値線形力学系、合成GINC、実世界の言語データセットの実験によって支持されている。
関連論文リスト
- Parallel Structures in Pre-training Data Yield In-Context Learning [41.27837171531926]
我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。
LMのICL能力は、事前学習データで$textitparallel構造に依存している。
論文 参考訳(メタデータ) (2024-02-19T20:40:48Z) - In-Context Learning Learns Label Relationships but Is Not Conventional
Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。
ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:54:41Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - A Survey on In-context Learning [77.78614055956365]
In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。