論文の概要: An Explanation of In-context Learning as Implicit Bayesian Inference
- arxiv url: http://arxiv.org/abs/2111.02080v1
- Date: Wed, 3 Nov 2021 09:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 12:46:35.711247
- Title: An Explanation of In-context Learning as Implicit Bayesian Inference
- Title(参考訳): 暗黙ベイズ推論としての文脈内学習の説明
- Authors: Sang Michael Xie, Aditi Raghunathan, Percy Liang, Tengyu Ma
- Abstract要約: In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
- 参考スコア(独自算出の注目度): 117.19809377740188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pretrained language models such as GPT-3 have the surprising ability to
do in-context learning, where the model learns to do a downstream task simply
by conditioning on a prompt consisting of input-output examples. Without being
explicitly pretrained to do so, the language model learns from these examples
during its forward pass without parameter updates on "out-of-distribution"
prompts. Thus, it is unclear what mechanism enables in-context learning. In
this paper, we study the role of the pretraining distribution on the emergence
of in-context learning under a mathematical setting where the pretraining texts
have long-range coherence. Here, language model pretraining requires inferring
a latent document-level concept from the conditioning text to generate coherent
next tokens. At test time, this mechanism enables in-context learning by
inferring the shared latent concept between prompt examples and applying it to
make a prediction on the test example. Concretely, we prove that in-context
learning occurs implicitly via Bayesian inference of the latent concept when
the pretraining distribution is a mixture of HMMs. This can occur despite the
distribution mismatch between prompts and pretraining data. In contrast to
messy large-scale pretraining datasets for in-context learning in natural
language, we generate a family of small-scale synthetic datasets (GINC) where
Transformer and LSTM language models both exhibit in-context learning. Beyond
the theory which focuses on the effect of the pretraining distribution, we
empirically find that scaling model size improves in-context accuracy even when
the pretraining loss is the same.
- Abstract(参考訳): GPT-3のような大規模な事前訓練された言語モデルは、入力出力例からなるプロンプトを条件にすることで、ダウンストリームタスクを学習する、コンテキスト内学習を行う驚くべき能力を持っている。
明示的に事前訓練されることなく、言語モデルは前方通過中にこれらの例から"out-of-distribution"プロンプトのパラメータを更新することなく学習する。
したがって、どのようなメカニズムがインコンテキスト学習を可能にするのかは不明だ。
本稿では,事前学習テキストが長距離コヒーレンスを持つ数学的条件下での,文脈内学習の出現における事前学習分布の役割について検討する。
ここで、言語モデルの事前トレーニングには、条件付きテキストから潜在文書レベルの概念を推論し、コヒーレントな次のトークンを生成する必要がある。
テスト時に、このメカニズムは、テスト例間で共有潜在概念を推論し、それを適用してテスト例の予測を行うことで、コンテキスト内学習を可能にする。
具体的には、事前学習分布がHMMの混合である場合に、潜在概念のベイズ的推論を通じて、文脈内学習が暗黙的に起こることを証明する。
これは、プロンプトとプリトレーニングデータの分散ミスマッチにもかかわらず起こり得る。
自然言語におけるインコンテキスト学習のための大規模事前学習データセットとは対照的に、TransformerとLSTM言語モデルの両方がインコンテキスト学習を示すような、小規模合成データセット(GINC)のファミリーを生成する。
事前学習分布の影響に焦点を当てた理論以外にも,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上できることを実証的に確認する。
関連論文リスト
- Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - The Learnability of In-Context Learning [16.182561312622315]
そこで本研究では,文脈内学習のための初歩的なPACベースのフレームワークを提案する。
本フレームワークは,事前学習に適合する初期事前学習フェーズを含む。
文脈内学習は、タスクを学習することよりも、タスクを特定することにあることを示す。
論文 参考訳(メタデータ) (2023-03-14T13:28:39Z) - The Inductive Bias of In-Context Learning: Rethinking Pretraining
Example Design [34.900425311720795]
事前学習したNLMは、同じトレーニング例に現れるテキストセグメント間の依存関係を、異なるトレーニング例に現れるテキストセグメント間の依存性よりも強くモデル化できることを示す。
我々は「kNN-Pretraining」を提案する:同じ事前学習例に意味論的に関連のない非隣接文を含めると、文表現の改善とオープンドメイン質問応答能力が得られることを示す。
論文 参考訳(メタデータ) (2021-10-09T11:05:16Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。