論文の概要: Parallel Structures in Pre-training Data Yield In-Context Learning
- arxiv url: http://arxiv.org/abs/2402.12530v1
- Date: Mon, 19 Feb 2024 20:40:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:12:07.074834
- Title: Parallel Structures in Pre-training Data Yield In-Context Learning
- Title(参考訳): 事前学習型インコンテキスト学習における並列構造
- Authors: Yanda Chen, Chen Zhao, Zhou Yu, Kathleen McKeown, He He
- Abstract要約: 我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。
LMのICL能力は、事前学習データで$textitparallel構造に依存している。
- 参考スコア(独自算出の注目度): 41.27837171531926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (LMs) are capable of in-context learning (ICL):
they can adapt to a task with only a few examples given in the prompt without
any parameter update. However, it is unclear where this capability comes from
as there is a stark distribution shift between pre-training text and ICL
prompts. In this work, we study what patterns of the pre-training data
contribute to ICL. We find that LMs' ICL ability depends on $\textit{parallel
structures}$ in the pre-training data -- pairs of phrases following similar
templates in the same context window. Specifically, we detect parallel
structures by checking whether training on one phrase improves prediction of
the other, and conduct ablation experiments to study their effect on ICL. We
show that removing parallel structures in the pre-training data reduces LMs'
ICL accuracy by 51% (vs 2% from random ablation). This drop persists even when
excluding common patterns such as n-gram repetitions and long-range dependency,
showing the diversity and generality of parallel structures. A closer look at
the detected parallel structures indicates that they cover diverse linguistic
tasks and span long distances in the data.
- Abstract(参考訳): 事前訓練された言語モデル(LM)は、インコンテキスト学習(ICL: in-context learning)が可能で、パラメータを更新することなく、プロンプトで与えられたいくつかの例でタスクに適応できる。
しかし、事前学習されたテキストとiclプロンプトの間に重大な分布シフトがあるため、この能力がどこから来ているのかは明らかではない。
本研究では,プリトレーニングデータのパターンがiclにどのような影響を与えるかを検討する。
lmsのicl能力は、事前トレーニングされたデータで$\textit{parallel structures}$に依存する。
具体的には、あるフレーズのトレーニングが他のフレーズの予測を改善するかどうかを確認して並列構造を検出し、ICLへの影響を研究するためのアブレーション実験を行う。
事前学習データから並列構造を除去すると,LMのICLの精度は51%低下する(vs 2%はランダムアブレーションによる)。
この降下は、n-gram繰り返しや長距離依存といった共通パターンを除外しても持続し、平行構造の多様性と一般化を示す。
検出された並列構造をよく見ると、それらは様々な言語的タスクをカバーし、データの長距離にわたっていることを示している。
関連論文リスト
- Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - From Unstructured Data to In-Context Learning: Exploring What Tasks Can Be Learned and When [19.841163050181194]
トランスフォーマーのような大きな言語モデル(LLM)は、インコンテキスト学習(ICL)機能を示す。
我々は、非構造化データで訓練されたモデルにおいて、ICLを実現するために、重要なシーケンスモデル要件とデータ構造について検討する。
我々は,非構造化データにおける意味的関連語対の共起から,多くのICL機能が出現することを発見した。
In one in logic reasoning task that requires generalization to new, unseen pattern, and another in analogy completion where relevant word pairs appears in fixed training position。
論文 参考訳(メタデータ) (2024-05-31T18:46:06Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Data Curation Alone Can Stabilize In-context Learning [20.874674130060388]
In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。
トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
トレーニングデータのサブセットを慎重にキュレートすることは、ICLアルゴリズムに他の変更を加えることなく、ICLのパフォーマンスを大幅に安定化させることを示す。
論文 参考訳(メタデータ) (2022-12-20T15:58:54Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。