論文の概要: What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization
- arxiv url: http://arxiv.org/abs/2305.19420v2
- Date: Tue, 10 Oct 2023 04:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:44:33.574705
- Title: What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization
- Title(参考訳): コンテキスト内学習はどのように学習するか?
ベイズモデル平均化、パラメータ化、一般化
- Authors: Yufeng Zhang, Fengzhuo Zhang, Zhuoran Yang, Zhaoran Wang
- Abstract要約: In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
- 参考スコア(独自算出の注目度): 111.55277952086155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we conduct a comprehensive study of In-Context Learning (ICL)
by addressing several open questions: (a) What type of ICL estimator is learned
by large language models? (b) What is a proper performance metric for ICL and
what is the error rate? (c) How does the transformer architecture enable ICL?
To answer these questions, we adopt a Bayesian view and formulate ICL as a
problem of predicting the response corresponding to the current covariate,
given a number of examples drawn from a latent variable model. To answer (a),
we show that, without updating the neural network parameters, ICL implicitly
implements the Bayesian model averaging algorithm, which is proven to be
approximately parameterized by the attention mechanism. For (b), we analyze the
ICL performance from an online learning perspective and establish a
$\mathcal{O}(1/T)$ regret bound for perfectly pretrained ICL, where $T$ is the
number of examples in the prompt. To answer (c), we show that, in addition to
encoding Bayesian model averaging via attention, the transformer architecture
also enables a fine-grained statistical analysis of pretraining under realistic
assumptions. In particular, we prove that the error of pretrained model is
bounded by a sum of an approximation error and a generalization error, where
the former decays to zero exponentially as the depth grows, and the latter
decays to zero sublinearly with the number of tokens in the pretraining
dataset. Our results provide a unified understanding of the transformer and its
ICL ability with bounds on ICL regret, approximation, and generalization, which
deepens our knowledge of these essential aspects of modern language models.
- Abstract(参考訳): 本稿では,いくつかのオープンな質問に答えることで,インコンテキスト学習(ICL)の総合的研究を行う。
(a)大規模言語モデルによって学習されるICL推定器の種類は?
(b)iclの適切なパフォーマンス指標とエラー率とは何でしょうか。
(c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか?
これらの疑問に答えるために、潜伏変数モデルから引き出された多くの例を考えると、現在の共変量に対応する応答を予測する問題としてベイズ的視点を採用し、ICLを定式化する。
答えるには
(a)、ニューラルネットワークパラメータを更新することなく、ICLはアテンション機構によってほぼパラメータ化されているベイズ平均化アルゴリズムを暗黙的に実装することを示した。
のために
(b)我々はオンライン学習の観点からiclのパフォーマンスを分析し、プリトレーニングされたiclに対して$t$がプロンプトの例の数である$\mathcal{o}(1/t)$ regret boundを確立する。
答えるには
(c)、注意によるベイズモデル平均化の符号化に加えて、トランスフォーマーアーキテクチャは現実的な仮定の下で事前学習の詳細な統計解析を可能にする。
特に、事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることが証明され、前者は深さが大きくなるにつれて指数関数的にゼロに崩壊し、後者は事前学習データセットのトークン数に比例してゼロに崩壊する。
この結果から,iclの後悔,近似,一般化を境界としたトランスフォーマとicl能力の統一理解が得られ,現代言語モデルの本質的側面に関する知識を深めることができた。
関連論文リスト
- Amortized In-Context Bayesian Posterior Estimation [15.714462115687096]
償却は条件付き推定を通じて、そのような困難を和らげるための実行可能な戦略である。
本研究では,アモルト化インコンテクストベイズ推定手法の徹底的な比較分析を行う。
本稿では,予測問題に対する逆KL推定器の優位性,特に変圧器アーキテクチャと正規化フローを併用した場合に強調する。
論文 参考訳(メタデータ) (2025-02-10T16:00:48Z) - An In-depth Investigation of Sparse Rate Reduction in Transformer-like Models [32.04194224236952]
スパースレートリダクション(SRR)と呼ばれる情報理論目的関数を提案する。
SRRは正の相関係数を持ち、パスノルムやシャープネスベースなど他の基準値よりも優れていることを示す。
ベンチマーク画像分類データセットの正規化として,SRRを用いて一般化を改善することができることを示す。
論文 参考訳(メタデータ) (2024-11-26T07:44:57Z) - Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。