論文の概要: What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization
- arxiv url: http://arxiv.org/abs/2305.19420v2
- Date: Tue, 10 Oct 2023 04:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:44:33.574705
- Title: What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization
- Title(参考訳): コンテキスト内学習はどのように学習するか?
ベイズモデル平均化、パラメータ化、一般化
- Authors: Yufeng Zhang, Fengzhuo Zhang, Zhuoran Yang, Zhaoran Wang
- Abstract要約: In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
- 参考スコア(独自算出の注目度): 111.55277952086155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we conduct a comprehensive study of In-Context Learning (ICL)
by addressing several open questions: (a) What type of ICL estimator is learned
by large language models? (b) What is a proper performance metric for ICL and
what is the error rate? (c) How does the transformer architecture enable ICL?
To answer these questions, we adopt a Bayesian view and formulate ICL as a
problem of predicting the response corresponding to the current covariate,
given a number of examples drawn from a latent variable model. To answer (a),
we show that, without updating the neural network parameters, ICL implicitly
implements the Bayesian model averaging algorithm, which is proven to be
approximately parameterized by the attention mechanism. For (b), we analyze the
ICL performance from an online learning perspective and establish a
$\mathcal{O}(1/T)$ regret bound for perfectly pretrained ICL, where $T$ is the
number of examples in the prompt. To answer (c), we show that, in addition to
encoding Bayesian model averaging via attention, the transformer architecture
also enables a fine-grained statistical analysis of pretraining under realistic
assumptions. In particular, we prove that the error of pretrained model is
bounded by a sum of an approximation error and a generalization error, where
the former decays to zero exponentially as the depth grows, and the latter
decays to zero sublinearly with the number of tokens in the pretraining
dataset. Our results provide a unified understanding of the transformer and its
ICL ability with bounds on ICL regret, approximation, and generalization, which
deepens our knowledge of these essential aspects of modern language models.
- Abstract(参考訳): 本稿では,いくつかのオープンな質問に答えることで,インコンテキスト学習(ICL)の総合的研究を行う。
(a)大規模言語モデルによって学習されるICL推定器の種類は?
(b)iclの適切なパフォーマンス指標とエラー率とは何でしょうか。
(c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか?
これらの疑問に答えるために、潜伏変数モデルから引き出された多くの例を考えると、現在の共変量に対応する応答を予測する問題としてベイズ的視点を採用し、ICLを定式化する。
答えるには
(a)、ニューラルネットワークパラメータを更新することなく、ICLはアテンション機構によってほぼパラメータ化されているベイズ平均化アルゴリズムを暗黙的に実装することを示した。
のために
(b)我々はオンライン学習の観点からiclのパフォーマンスを分析し、プリトレーニングされたiclに対して$t$がプロンプトの例の数である$\mathcal{o}(1/t)$ regret boundを確立する。
答えるには
(c)、注意によるベイズモデル平均化の符号化に加えて、トランスフォーマーアーキテクチャは現実的な仮定の下で事前学習の詳細な統計解析を可能にする。
特に、事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることが証明され、前者は深さが大きくなるにつれて指数関数的にゼロに崩壊し、後者は事前学習データセットのトークン数に比例してゼロに崩壊する。
この結果から,iclの後悔,近似,一般化を境界としたトランスフォーマとicl能力の統一理解が得られ,現代言語モデルの本質的側面に関する知識を深めることができた。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of
Syntax [40.40069999922899]
In-context Learning (ICL)は、大規模言語モデル(LLM)を監督する一般的な方法である。
ICLの普及と実用性にもかかわらず、このような方法で教師付きモデルがタスクの基盤構造を表すかどうかはほとんど分かっていない。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - On Training Implicit Meta-Learning With Applications to Inductive
Weighing in Consistency Regularization [0.0]
暗黙的メタラーニング(IML)では、特にヘシアン(Hessian)の計算に2ドル(約2,200円)の勾配を必要とする。
ヘッセンの様々な近似が提案されたが、計算コスト、安定性、解の一般化、推定精度の体系的な比較はほとんど見過ごされてしまった。
本稿では,ドメイン固有の特徴を抽出するために,信頼ネットワークをトレーニングすることで,有用画像のアップウェイトや配布外サンプルのダウンウェイトを学べることを示す。
論文 参考訳(メタデータ) (2023-10-28T15:50:03Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - A Mechanism for Sample-Efficient In-Context Learning for Sparse
Retrieval Tasks [29.764014766305174]
事前学習プロセスと下流タスクに対して,適切な仮定でトランスフォーマーモデルがICLを実行可能であることを示す。
本手法は, トランス機構を用いて実装可能であることを確認した。
論文 参考訳(メタデータ) (2023-05-26T15:49:43Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Learning Invariant Representations using Inverse Contrastive Loss [34.93395633215398]
興味のある変数に不変な学習表現に対して,損失のクラスを導入する。
外部変数がバイナリである場合、iclの最適化は正規化mmd分岐の最適化と同値であることを示す。
論文 参考訳(メタデータ) (2021-02-16T18:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。