論文の概要: In-Context Learning of Large Language Models Explained as Kernel
Regression
- arxiv url: http://arxiv.org/abs/2305.12766v1
- Date: Mon, 22 May 2023 06:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:59:31.074749
- Title: In-Context Learning of Large Language Models Explained as Kernel
Regression
- Title(参考訳): カーネル回帰として説明される大規模言語モデルの文脈内学習
- Authors: Chi Han, Ziqi Wang, Han Zhao, Heng Ji
- Abstract要約: 大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネルの回帰の振る舞いと一致していることがわかった。
- 参考スコア(独自算出の注目度): 57.894689915316945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have initiated a paradigm shift in transfer
learning. In contrast to the classic pretraining-then-finetuning procedure, in
order to use LLMs for downstream prediction tasks, one only needs to provide a
few demonstrations, known as in-context examples, without adding more or
updating existing model parameters. This in-context learning (ICL) capabilities
of LLMs is intriguing, and it is not yet fully understood how pretrained LLMs
acquire such capabilities. In this paper, we investigate the reason why a
transformer-based language model can accomplish in-context learning after
pre-training on a general language corpus by proposing one hypothesis that LLMs
can simulate kernel regression algorithms when faced with in-context examples.
More concretely, we first prove that Bayesian inference on in-context prompts
can be asymptotically understood as kernel regression $\hat y = \frac{\sum_i
y_i K(x, x_i)}{\sum_i K(x, x_i)}$ as the number of in-context demonstrations
grows. Then, we empirically investigate the in-context behaviors of language
models. We find that during ICL, the attentions and hidden features in LLMs
match the behaviors of a kernel regression. Finally, our theory provides
insights on multiple phenomena observed in ICL field: why retrieving
demonstrative samples similar to test sample can help, why ICL performance is
sensitive to the output formats, and why ICL accuracy benefits from selecting
in-distribution and representative samples. We will make our code available to
the research community following publication.
- Abstract(参考訳): 大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
ダウンストリームの予測タスクにllmを使用するには、従来の事前トレーニング-then-finetuningプロシージャとは対照的に、既存のモデルパラメータの追加や更新を行わずに、コンテキスト内例として知られるいくつかのデモンストレーションを提供するだけでよい。
LLMのこの文脈内学習(ICL)能力は興味深いものであり、事前訓練されたLLMがそのような能力を獲得する方法が完全には理解されていない。
本稿では,LLMがカーネル回帰アルゴリズムをシミュレーションできるという仮説を1つ提案することにより,トランスフォーマーベース言語モデルが汎用言語コーパスの事前学習後にコンテキスト内学習を達成できる理由を考察する。
より具体的には、in-contextプロンプト上のベイズ推論が、in-contextデモの数が増えるにつれて、カーネル回帰 $\hat y = \frac{\sum_i y_i k(x, x_i)}{\sum_i k(x, x_i)}$として漸近的に理解可能であることを最初に証明する。
そして,言語モデルの文脈内挙動を実証的に検討する。
ICL中、LLMの注意と隠れた特徴は、カーネルの回帰の振る舞いと一致していることがわかった。
最後に,本理論は icl 領域で観測される複数の現象について考察する: 試験試料と類似したサンプルを検索することは,なぜ icl が出力形式に敏感なのか,なぜ icl の精度が分布内および代表的サンプルを選択することで得られるのか。
コードを公開後、研究コミュニティに公開します。
関連論文リスト
- ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Parallel Structures in Pre-training Data Yield In-Context Learning [41.27837171531926]
我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。
LMのICL能力は、事前学習データで$textitparallel構造に依存している。
論文 参考訳(メタデータ) (2024-02-19T20:40:48Z) - In-Context Exemplars as Clues to Retrieving from Large Associative
Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。
文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。
本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文 参考訳(メタデータ) (2023-11-06T20:13:29Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Iterative Forward Tuning Boosts In-context Learning in Language Models [46.848235335267375]
大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。
本稿では、トランスフォーマーの注意と勾配降下に基づく最適化の二重形式を利用して、LCMにおけるICL向上のための2段階のフレームワークを提案する。
本手法は,精度と効率の両面で,標準ICLよりもかなり優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。