論文の概要: In-Context Learning of Large Language Models Explained as Kernel
Regression
- arxiv url: http://arxiv.org/abs/2305.12766v1
- Date: Mon, 22 May 2023 06:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:59:31.074749
- Title: In-Context Learning of Large Language Models Explained as Kernel
Regression
- Title(参考訳): カーネル回帰として説明される大規模言語モデルの文脈内学習
- Authors: Chi Han, Ziqi Wang, Han Zhao, Heng Ji
- Abstract要約: 大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネルの回帰の振る舞いと一致していることがわかった。
- 参考スコア(独自算出の注目度): 57.894689915316945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have initiated a paradigm shift in transfer
learning. In contrast to the classic pretraining-then-finetuning procedure, in
order to use LLMs for downstream prediction tasks, one only needs to provide a
few demonstrations, known as in-context examples, without adding more or
updating existing model parameters. This in-context learning (ICL) capabilities
of LLMs is intriguing, and it is not yet fully understood how pretrained LLMs
acquire such capabilities. In this paper, we investigate the reason why a
transformer-based language model can accomplish in-context learning after
pre-training on a general language corpus by proposing one hypothesis that LLMs
can simulate kernel regression algorithms when faced with in-context examples.
More concretely, we first prove that Bayesian inference on in-context prompts
can be asymptotically understood as kernel regression $\hat y = \frac{\sum_i
y_i K(x, x_i)}{\sum_i K(x, x_i)}$ as the number of in-context demonstrations
grows. Then, we empirically investigate the in-context behaviors of language
models. We find that during ICL, the attentions and hidden features in LLMs
match the behaviors of a kernel regression. Finally, our theory provides
insights on multiple phenomena observed in ICL field: why retrieving
demonstrative samples similar to test sample can help, why ICL performance is
sensitive to the output formats, and why ICL accuracy benefits from selecting
in-distribution and representative samples. We will make our code available to
the research community following publication.
- Abstract(参考訳): 大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
ダウンストリームの予測タスクにllmを使用するには、従来の事前トレーニング-then-finetuningプロシージャとは対照的に、既存のモデルパラメータの追加や更新を行わずに、コンテキスト内例として知られるいくつかのデモンストレーションを提供するだけでよい。
LLMのこの文脈内学習(ICL)能力は興味深いものであり、事前訓練されたLLMがそのような能力を獲得する方法が完全には理解されていない。
本稿では,LLMがカーネル回帰アルゴリズムをシミュレーションできるという仮説を1つ提案することにより,トランスフォーマーベース言語モデルが汎用言語コーパスの事前学習後にコンテキスト内学習を達成できる理由を考察する。
より具体的には、in-contextプロンプト上のベイズ推論が、in-contextデモの数が増えるにつれて、カーネル回帰 $\hat y = \frac{\sum_i y_i k(x, x_i)}{\sum_i k(x, x_i)}$として漸近的に理解可能であることを最初に証明する。
そして,言語モデルの文脈内挙動を実証的に検討する。
ICL中、LLMの注意と隠れた特徴は、カーネルの回帰の振る舞いと一致していることがわかった。
最後に,本理論は icl 領域で観測される複数の現象について考察する: 試験試料と類似したサンプルを検索することは,なぜ icl が出力形式に敏感なのか,なぜ icl の精度が分布内および代表的サンプルを選択することで得られるのか。
コードを公開後、研究コミュニティに公開します。
関連論文リスト
- Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。
VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。
我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。
Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。
I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - In-Context Exemplars as Clues to Retrieving from Large Associative
Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。
文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。
本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文 参考訳(メタデータ) (2023-11-06T20:13:29Z) - Do pretrained Transformers Learn In-Context by Gradient Descent? [21.23795112800977]
本稿では,自然データを用いた言語モデル(LLaMa-7B)における文脈内学習(ICL)の出現について検討する。
ICL と Gradient Descent (GD) は言語モデルの出力分布を異なる方法で変更する。
これらの結果は、ICLとGDの同値性は未解決の仮説であり、さらなる研究が必要であることを示唆している。
論文 参考訳(メタデータ) (2023-10-12T17:32:09Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。