Fugu-MT 論文翻訳(概要): Explaining Emergent In-Context Learning as Kernel Regression

論文の概要: Explaining Emergent In-Context Learning as Kernel Regression

arxiv url: http://arxiv.org/abs/2305.12766v2
Date: Thu, 5 Oct 2023 16:04:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 22:34:08.429555
Title: Explaining Emergent In-Context Learning as Kernel Regression
Title（参考訳）: カーネル回帰として創発的インコンテキスト学習を説明する
Authors: Chi Han, Ziqi Wang, Han Zhao, Heng Ji
Abstract要約: 大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
参考スコア（独自算出の注目度）: 61.57151500616111
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have initiated a paradigm shift in transfer learning. In contrast to the classic pretraining-then-finetuning procedure, in order to use LLMs for downstream prediction tasks, one only needs to provide a few demonstrations, known as in-context examples, without adding more or updating existing model parameters. This in-context learning (ICL) capability of LLMs is intriguing, and it is not yet fully understood how pretrained LLMs acquire such capabilities. In this paper, we investigate the reason why a transformer-based language model can accomplish in-context learning after pre-training on a general language corpus by proposing one hypothesis that LLMs can simulate kernel regression with internal representations when faced with in-context examples. More concretely, we first prove that Bayesian inference on in-context prompts can be asymptotically understood as kernel regression $\hat y = \sum_i y_i K(x, x_i)/\sum_i K(x, x_i)$ as the number of in-context demonstrations grows. Then, we empirically investigate the in-context behaviors of language models. We find that during ICL, the attention and hidden features in LLMs match the behaviors of a kernel regression. Finally, our theory provides insights into multiple phenomena observed in the ICL field: why retrieving demonstrative samples similar to test samples can help, why ICL performance is sensitive to the output formats, and why ICL accuracy benefits from selecting in-distribution and representative samples.
Abstract（参考訳）: 大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。ダウンストリームの予測タスクにllmを使用するには、従来の事前トレーニング-then-finetuningプロシージャとは対照的に、既存のモデルパラメータの追加や更新を行わずに、コンテキスト内例として知られるいくつかのデモンストレーションを提供するだけでよい。 LLMのこの文脈内学習(ICL)能力は興味深いものであり、事前学習されたLLMがそのような能力を獲得する方法が完全には理解されていない。本稿では,LLMが内部表現でカーネル回帰をシミュレートできるという仮説を1つ提案することにより,トランスフォーマーベース言語モデルが汎用言語コーパス上で事前学習後にコンテキスト内学習を達成できる理由を考察する。より具体的には、インコンテキストプロンプトに対するベイズ的推論が、インコンテキストデモの数が増えるにつれて、カーネル回帰 $\hat y = \sum_i y_i K(x, x_i)/\sum_i K(x, x_i)$ として漸近的に理解できることを最初に証明する。そして,言語モデルの文脈内挙動を実証的に検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。最後に,本理論は icl 領域で観測される複数の現象について考察する: 試験試料と同様の実証的なサンプルを検索することは,なぜ icl が出力形式に敏感なのか,なぜ icl の精度が分布内および代表的サンプルを選択することで得られるのか。

関連論文リスト

Surprise Calibration for Better In-Context Learning [6.566285172635043]
In-context Learning (ICL) は、大規模言語モデルにおけるタスク適応のための強力なパラダイムとして登場した。既存のバイアス校正法は、すべての入力に対して固定クラス事前を適用し、動的ICL設定におけるそれらの有効性を制限している。本稿では,クラス先行の時間的ダイナミクスをキャプチャする新しいメソッド・サプライズ(SC)を提案する。
論文参考訳（メタデータ） (2025-06-15T10:04:42Z)
Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [50.53703102032562]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文参考訳（メタデータ） (2025-05-16T08:50:42Z)
Towards Auto-Regressive Next-Token Prediction: In-Context Learning Emerges from Generalization [26.9153121765435]
大規模言語モデル(LLM)は、文脈内学習能力を顕著に示している。本稿では,ICLの出現と事前学習がICLに与える影響について検討する。我々の理論は、数値線形力学系、合成GINC、実世界の言語データセットの実験によって支持されている。
論文参考訳（メタデータ） (2025-02-24T10:26:29Z)
Bayesian scaling laws for in-context learning [85.34114399339741]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。我々は、ICCがベイズ学習者に近似していることを示し、ICCの新しいベイズスケーリング法を生み出した。我々のスケーリング法則は既存のスケーリング法則と精度で一致し、タスクの優先順位、学習効率、サンプルごとの確率の解釈可能な用語も提供します。
論文参考訳（メタデータ） (2024-10-21T21:45:22Z)
Larger Language Models Don't Care How You Think: Why Chain-of-Thought Prompting Fails in Subjective Tasks [25.562937159039038]
In-Context Learning (ICL) in Large Language Models (LLM) が自然言語処理の主流の手法として登場した。 ICLはタスク先行の検索に大きく依存しており、タスクを実行するための"学習"は少なくなっている。驚くべきことに、CoT(Chain-of-Thought)は、大きな言語モデルではICLと同じ後方崩壊に悩まされている。
論文参考訳（メタデータ） (2024-09-10T03:06:17Z)
Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。 VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文参考訳（メタデータ） (2024-06-06T17:59:56Z)
What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。 RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。 RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文参考訳（メタデータ） (2024-06-06T17:34:24Z)
What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する一般的な仮説の一つは、タスク選択によるICLの説明である。もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文参考訳（メタデータ） (2024-06-06T16:15:34Z)
Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。 Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。 I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文参考訳（メタデータ） (2024-05-23T14:57:52Z)
"In-Context Learning" or: How I learned to stop worrying and love "Applied Information Retrieval" [9.264121218481133]
In-context Learning (ICL)は、自然言語処理(NLP)の新しいパラダイムとして進化してきた。 ICLは概念的には$k$-NNのような非パラメトリックアプローチに似ている。トレーニングセットから取得したICLの同様の例は、IRのコレクションから取得したドキュメントのセットに関連している。
論文参考訳（メタデータ） (2024-05-02T09:25:24Z)
Parallel Structures in Pre-training Data Yield In-Context Learning [41.27837171531926]
我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。 LMのICL能力は、事前学習データで$textitparallel構造に依存している。
論文参考訳（メタデータ） (2024-02-19T20:40:48Z)
In-Context Exemplars as Clues to Retrieving from Large Associative Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文参考訳（メタデータ） (2023-11-06T20:13:29Z)
Do pretrained Transformers Learn In-Context by Gradient Descent? [21.23795112800977]
本稿では,自然データを用いた言語モデル(LLaMa-7B)における文脈内学習(ICL)の出現について検討する。 ICL と Gradient Descent (GD) は言語モデルの出力分布を異なる方法で変更する。これらの結果は、ICLとGDの同値性は未解決の仮説であり、さらなる研究が必要であることを示唆している。
論文参考訳（メタデータ） (2023-10-12T17:32:09Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文参考訳（メタデータ） (2023-05-30T21:23:47Z)
Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する本稿では,情報フローレンズを用いたICLの動作機構について検討する。本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T15:26:20Z)
A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文参考訳（メタデータ） (2023-03-14T15:24:05Z)
ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文参考訳（メタデータ） (2022-10-04T00:34:01Z)
An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文参考訳（メタデータ） (2021-11-03T09:12:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。