論文の概要: Towards the Effect of Examples on In-Context Learning: A Theoretical Case Study
- arxiv url: http://arxiv.org/abs/2410.09411v1
- Date: Sat, 12 Oct 2024 07:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:34:09.527609
- Title: Towards the Effect of Examples on In-Context Learning: A Theoretical Case Study
- Title(参考訳): 実例がインテクスト学習に及ぼす影響--理論的ケーススタディ
- Authors: Pengfei He, Yingqian Cui, Han Xu, Hui Liu, Makoto Yamada, Jiliang Tang, Yue Xing,
- Abstract要約: In-context Learning (ICL)は、大規模言語モデル(LLM)がダウンストリームタスクに適応するための強力な機能として、いくつかの例(デモ)を活用することで登場した。
本稿では,2進分類タスクの理論的研究を行い,ICLが事前学習中にLLMが学習した知識と実例をどのように統合するかをよりよく理解する。
- 参考スコア(独自算出の注目度): 47.395366827672675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) has emerged as a powerful capability for large language models (LLMs) to adapt to downstream tasks by leveraging a few (demonstration) examples. Despite its effectiveness, the mechanism behind ICL remains underexplored. To better understand how ICL integrates the examples with the knowledge learned by the LLM during pre-training (i.e., pre-training knowledge) and how the examples impact ICL, this paper conducts a theoretical study in binary classification tasks. In particular, we introduce a probabilistic model extending from the Gaussian mixture model to exactly quantify the impact of pre-training knowledge, label frequency, and label noise on the prediction accuracy. Based on our analysis, when the pre-training knowledge contradicts the knowledge in the examples, whether ICL prediction relies more on the pre-training knowledge or the examples depends on the number of examples. In addition, the label frequency and label noise of the examples both affect the accuracy of the ICL prediction, where the minor class has a lower accuracy, and how the label noise impacts the accuracy is determined by the specific noise level of the two classes. Extensive simulations are conducted to verify the correctness of the theoretical results, and real-data experiments also align with the theoretical insights. Our work reveals the role of pre-training knowledge and examples in ICL, offering a deeper understanding of LLMs' behaviors in classification tasks.
- Abstract(参考訳): In-context Learning (ICL)は、大規模言語モデル(LLM)がダウンストリームタスクに適応するための強力な機能として、いくつかの例(デモ)を活用することで登場した。
有効性にもかかわらず、ICLの背後にあるメカニズムは未解明のままである。
ICLが事前学習中に学習した知識(事前学習知識)と実例をどのように統合するか、また、実例がICLにどう影響するかをよりよく理解するために、二分分類タスクの理論的研究を行う。
特に,ガウス混合モデルから拡張した確率モデルを導入し,事前学習知識,ラベル周波数,ラベルノイズが予測精度に与える影響を正確に定量化する。
我々の分析から,事前学習知識が実例の知識と矛盾する場合,ICL予測が事前学習知識に依存しているか,実例が実例数に依存しているかが示唆された。
さらに,実例のラベル周波数とラベルノイズがICL予測の精度に影響を及ぼし,マイナークラスが低い精度でラベルノイズが精度に与える影響は,2種類の特定のノイズレベルによって決定される。
理論結果の正当性を検証するために大規模なシミュレーションが行われ、実データ実験も理論的な洞察と一致している。
我々の研究は、ICLにおける事前学習の知識と実例の役割を明らかにし、分類タスクにおけるLLMの振る舞いをより深く理解する。
関連論文リスト
- Can In-context Learning Really Generalize to Out-of-distribution Tasks? [36.11431280689549]
本研究は,訓練中に遭遇したことのないアウト・オブ・ディストリビューション(OOD)課題に対する,イン・コンテクスト・ラーニング(ICL)のメカニズムについて検討した。
我々は、トランスフォーマーがICLを通してOODタスク機能を学ぶのに苦労していることを明らかにする。
論文 参考訳(メタデータ) (2024-10-13T02:10:26Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - Dual Operating Modes of In-Context Learning [8.664657381613695]
In-context Learning (ICL)は、タスク学習とタスク検索という2つの操作モードを示す。
最近の理論的研究は、ICLを解析するための様々な数学的モデルについて研究している。
本稿では,ICLの二重動作モードを同時に説明できる確率モデルを提案する。
論文 参考訳(メタデータ) (2024-02-29T03:06:10Z) - Few-Shot Class-Incremental Learning with Prior Knowledge [94.95569068211195]
本稿では,事前学習モデルの一般化能力を高めるために,先行知識を用いた学習(LwPK)を提案する。
実験結果から,LwPKは破滅的忘れ込みに対するモデルレジリエンスを効果的に向上させることが示された。
論文 参考訳(メタデータ) (2024-02-02T08:05:35Z) - Not All Demonstration Examples are Equally Beneficial: Reweighting
Demonstration Examples for In-Context Learning [32.29118942982609]
大規模言語モデル(LLM)は、最近、モデルをスケールアップしてICL(In-Context Learning)能力を獲得した。
本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。
8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-10-12T13:15:11Z) - Investigating the Learning Behaviour of In-context Learning: A
Comparison with Supervised Learning [67.25698169440818]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な能力を示している。
我々は、ICLと教師あり学習(SL)を通して、同じ実演例で同じLLMを訓練し、ラベル摂動下での性能を調査する。
まず、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を与えることを発見した。
第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。
論文 参考訳(メタデータ) (2023-07-28T09:03:19Z) - In-Context Learning Learns Label Relationships but Is Not Conventional
Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。
ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:54:41Z) - Benchmark data to study the influence of pre-training on explanation
performance in MR image classification [0.6927055673104934]
CNNは頻繁に使われ、医療予測タスクでうまく使われている。
それらは転送学習と組み合わせて使われることが多く、タスクのトレーニングデータが不足するとパフォーマンスが向上する。
従来,XAI法における地中構造データに対する「説明性能」を定量的に評価することはめったにない。
論文 参考訳(メタデータ) (2023-06-21T09:53:37Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。