論文の概要: Understanding In-Context Learning via Supportive Pretraining Data
- arxiv url: http://arxiv.org/abs/2306.15091v1
- Date: Mon, 26 Jun 2023 22:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 15:18:23.733989
- Title: Understanding In-Context Learning via Supportive Pretraining Data
- Title(参考訳): 支援的事前学習データによる文脈内学習の理解
- Authors: Xiaochuang Han, Daniel Simig, Todor Mihaylov, Yulia Tsvetkov, Asli
Celikyilmaz, Tianlu Wang
- Abstract要約: In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
- 参考スコア(独自算出の注目度): 55.648777340129364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) improves language models' performance on a variety
of NLP tasks by simply demonstrating a handful of examples at inference time.
It is not well understood why ICL ability emerges, as the model has never been
specifically trained on such demonstrations. Unlike prior work that explores
implicit mechanisms behind ICL, we study ICL via investigating the pretraining
data. Specifically, we first adapt an iterative, gradient-based approach to
find a small subset of pretraining data that supports ICL. We observe that a
continued pretraining on this small subset significantly improves the model's
ICL ability, by up to 18%. We then compare the supportive subset constrastively
with random subsets of pretraining data and discover: (1) The supportive
pretraining data to ICL do not have a higher domain relevance to downstream
tasks. (2) The supportive pretraining data have a higher mass of rarely
occurring, long-tail tokens. (3) The supportive pretraining data are
challenging examples where the information gain from long-range context is
below average, indicating learning to incorporate difficult long-range context
encourages ICL. Our work takes a first step towards understanding ICL via
analyzing instance-level pretraining data. Our insights have a potential to
enhance the ICL ability of language models by actively guiding the construction
of pretraining data in the future.
- Abstract(参考訳): In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
iclの背後にある暗黙のメカニズムを探求する先行研究とは異なり、プリトレーニングデータを調べることでiclを研究する。
具体的には、まず、ICLをサポートする事前学習データの小さなサブセットを見つけるために、反復的な勾配に基づくアプローチを適用する。
この小部分集合に対する継続的な事前訓練は、モデルのicl能力を大幅に向上させ、最大で18%向上させる。
1) iclに対する支援的事前訓練データは、下流タスクにより高いドメイン的関連性を持っていない。
2)サポート型事前訓練データは、稀に発生するロングテールトークンの質量が高い。
3) 支援的事前学習データは, 長期的文脈からの情報獲得が平均以下である難解な例であり, 難易度の高い長期的文脈を取り込む学習がiclを促進することを示す。
我々の研究は、インスタンスレベルの事前学習データを分析してICLを理解するための第一歩を踏み出した。
我々の洞察は、将来、事前学習データの構築を積極的に導くことで、言語モデルのICL能力を高める可能性がある。
関連論文リスト
- Parallel Structures in Pre-training Data Yield In-Context Learning [41.27837171531926]
我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。
LMのICL能力は、事前学習データで$textitparallel構造に依存している。
論文 参考訳(メタデータ) (2024-02-19T20:40:48Z) - DAIL: Data Augmentation for In-Context Learning via Self-Paraphrase [37.68804898063595]
In-Context Learning (ICL)と事前訓練された大規模言語モデルを組み合わせることで、様々なNLPタスクにおいて有望な結果が得られた。
textbfData textbfAugmentation for textbfIn-Context textbfLearning (textbfDAIL)を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:12:55Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - ORCA: Interpreting Prompted Language Models via Locating Supporting Data
Evidence in the Ocean of Pretraining Data [38.20984369410193]
大規模な事前訓練された言語モデルは、プロンプトを通じて様々な下流タスクにおいて、ますますよく機能している。
モデルがタスク固有の知識を、特にゼロショット設定でどこで学習するかは、まだ不明である。
この研究では、モデルが事前学習からタスク固有の能力を示す証拠を見つけ、特に事前学習データのごく小さなサブセットを見つけることに興味がある。
論文 参考訳(メタデータ) (2022-05-25T09:25:06Z) - Foundational Models for Continual Learning: An Empirical Study of Latent
Replay [17.322679682451597]
本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。
大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
論文 参考訳(メタデータ) (2022-04-30T19:11:37Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。