論文の概要: What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization
- arxiv url: http://arxiv.org/abs/2305.19420v1
- Date: Tue, 30 May 2023 21:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:26:10.791888
- Title: What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization
- Title(参考訳): コンテキスト内学習はどのように学習するか?
ベイズモデル平均化、パラメータ化、一般化
- Authors: Yufeng Zhang, Fengzhuo Zhang, Zhuoran Yang, Zhaoran Wang
- Abstract要約: 本稿では,インテクスト学習(ICL)の総合的研究を行う。
We take a Bayesian view and demonstrate that ICL demonstratedly implements the Bayesian model averaging algorithm。
以上の結果から,ICLの後悔,近似,一般化に基づく変換器とそのICL能力の統一的理解が得られた。
- 参考スコア(独自算出の注目度): 111.3334241678331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we conduct a comprehensive study of In-Context Learning (ICL)
by addressing several open questions: (a) What type of ICL estimator is learned
within language models? (b) What are suitable performance metrics to evaluate
ICL accurately and what are the error rates? (c) How does the transformer
architecture enable ICL? To answer (a), we take a Bayesian view and demonstrate
that ICL implicitly implements the Bayesian model averaging algorithm. This
Bayesian model averaging algorithm is proven to be approximately parameterized
by the attention mechanism. For (b), we analyze the ICL performance from an
online learning perspective and establish a regret bound $\mathcal{O}(1/T)$,
where $T$ is the ICL input sequence length. To address (c), in addition to the
encoded Bayesian model averaging algorithm in attention, we show that during
pertaining, the total variation distance between the learned model and the
nominal model is bounded by a sum of an approximation error and a
generalization error of
$\tilde{\mathcal{O}}(1/\sqrt{N_{\mathrm{p}}T_{\mathrm{p}}})$, where
$N_{\mathrm{p}}$ and $T_{\mathrm{p}}$ are the number of token sequences and the
length of each sequence in pretraining, respectively. Our results provide a
unified understanding of the transformer and its ICL ability with bounds on ICL
regret, approximation, and generalization, which deepens our knowledge of these
essential aspects of modern language models.
- Abstract(参考訳): 本稿では,いくつかのオープンな質問に答えることで,インコンテキスト学習(ICL)の総合的研究を行う。
(a)言語モデルで学習されるICL推定器の種類は?
b) ICLを正確に評価するのに適切なパフォーマンス指標と、エラー率について。
(c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか?
答えるには
a) iclはベイズモデル平均化アルゴリズムを暗黙的に実装していることを示す。
このベイズモデル平均化アルゴリズムは注意機構によっておよそパラメータ化されることが証明されている。
のために
b) ICLのパフォーマンスをオンライン学習の観点から分析し, ICLの入力シーケンス長が$T$である場合に, 後悔すべき$\mathcal{O}(1/T)$を確立する。
宛て
(c) 注意される符号化ベイズモデル平均化アルゴリズムに加えて, 学習モデルと名目モデルとの間の総変動距離は, 近似誤差(1/\sqrt{n_{\mathrm{p}}t_{\mathrm{p}}})$, ここで $n_{\mathrm{p}}$ と $t_{\mathrm{p}}$ はそれぞれトークン列の数とプリトレーニング中の各シーケンスの長さで区切られていることを示す。
この結果から,iclの後悔,近似,一般化を境界としたトランスフォーマとicl能力の統一理解が得られ,現代言語モデルの本質的側面に関する知識を深めることができた。
関連論文リスト
- Amortized In-Context Bayesian Posterior Estimation [15.714462115687096]
償却は条件付き推定を通じて、そのような困難を和らげるための実行可能な戦略である。
本研究では,アモルト化インコンテクストベイズ推定手法の徹底的な比較分析を行う。
本稿では,予測問題に対する逆KL推定器の優位性,特に変圧器アーキテクチャと正規化フローを併用した場合に強調する。
論文 参考訳(メタデータ) (2025-02-10T16:00:48Z) - An In-depth Investigation of Sparse Rate Reduction in Transformer-like Models [32.04194224236952]
スパースレートリダクション(SRR)と呼ばれる情報理論目的関数を提案する。
SRRは正の相関係数を持ち、パスノルムやシャープネスベースなど他の基準値よりも優れていることを示す。
ベンチマーク画像分類データセットの正規化として,SRRを用いて一般化を改善することができることを示す。
論文 参考訳(メタデータ) (2024-11-26T07:44:57Z) - Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。