論文の概要: What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization
- arxiv url: http://arxiv.org/abs/2305.19420v1
- Date: Tue, 30 May 2023 21:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:26:10.791888
- Title: What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization
- Title(参考訳): コンテキスト内学習はどのように学習するか?
ベイズモデル平均化、パラメータ化、一般化
- Authors: Yufeng Zhang, Fengzhuo Zhang, Zhuoran Yang, Zhaoran Wang
- Abstract要約: 本稿では,インテクスト学習(ICL)の総合的研究を行う。
We take a Bayesian view and demonstrate that ICL demonstratedly implements the Bayesian model averaging algorithm。
以上の結果から,ICLの後悔,近似,一般化に基づく変換器とそのICL能力の統一的理解が得られた。
- 参考スコア(独自算出の注目度): 111.3334241678331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we conduct a comprehensive study of In-Context Learning (ICL)
by addressing several open questions: (a) What type of ICL estimator is learned
within language models? (b) What are suitable performance metrics to evaluate
ICL accurately and what are the error rates? (c) How does the transformer
architecture enable ICL? To answer (a), we take a Bayesian view and demonstrate
that ICL implicitly implements the Bayesian model averaging algorithm. This
Bayesian model averaging algorithm is proven to be approximately parameterized
by the attention mechanism. For (b), we analyze the ICL performance from an
online learning perspective and establish a regret bound $\mathcal{O}(1/T)$,
where $T$ is the ICL input sequence length. To address (c), in addition to the
encoded Bayesian model averaging algorithm in attention, we show that during
pertaining, the total variation distance between the learned model and the
nominal model is bounded by a sum of an approximation error and a
generalization error of
$\tilde{\mathcal{O}}(1/\sqrt{N_{\mathrm{p}}T_{\mathrm{p}}})$, where
$N_{\mathrm{p}}$ and $T_{\mathrm{p}}$ are the number of token sequences and the
length of each sequence in pretraining, respectively. Our results provide a
unified understanding of the transformer and its ICL ability with bounds on ICL
regret, approximation, and generalization, which deepens our knowledge of these
essential aspects of modern language models.
- Abstract(参考訳): 本稿では,いくつかのオープンな質問に答えることで,インコンテキスト学習(ICL)の総合的研究を行う。
(a)言語モデルで学習されるICL推定器の種類は?
b) ICLを正確に評価するのに適切なパフォーマンス指標と、エラー率について。
(c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか?
答えるには
a) iclはベイズモデル平均化アルゴリズムを暗黙的に実装していることを示す。
このベイズモデル平均化アルゴリズムは注意機構によっておよそパラメータ化されることが証明されている。
のために
b) ICLのパフォーマンスをオンライン学習の観点から分析し, ICLの入力シーケンス長が$T$である場合に, 後悔すべき$\mathcal{O}(1/T)$を確立する。
宛て
(c) 注意される符号化ベイズモデル平均化アルゴリズムに加えて, 学習モデルと名目モデルとの間の総変動距離は, 近似誤差(1/\sqrt{n_{\mathrm{p}}t_{\mathrm{p}}})$, ここで $n_{\mathrm{p}}$ と $t_{\mathrm{p}}$ はそれぞれトークン列の数とプリトレーニング中の各シーケンスの長さで区切られていることを示す。
この結果から,iclの後悔,近似,一般化を境界としたトランスフォーマとicl能力の統一理解が得られ,現代言語モデルの本質的側面に関する知識を深めることができた。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [70.9098740785845]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - On Training Implicit Meta-Learning With Applications to Inductive
Weighing in Consistency Regularization [0.0]
暗黙的メタラーニング(IML)では、特にヘシアン(Hessian)の計算に2ドル(約2,200円)の勾配を必要とする。
ヘッセンの様々な近似が提案されたが、計算コスト、安定性、解の一般化、推定精度の体系的な比較はほとんど見過ごされてしまった。
本稿では,ドメイン固有の特徴を抽出するために,信頼ネットワークをトレーニングすることで,有用画像のアップウェイトや配布外サンプルのダウンウェイトを学べることを示す。
論文 参考訳(メタデータ) (2023-10-28T15:50:03Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - A Mechanism for Sample-Efficient In-Context Learning for Sparse
Retrieval Tasks [29.764014766305174]
事前学習プロセスと下流タスクに対して,適切な仮定でトランスフォーマーモデルがICLを実行可能であることを示す。
本手法は, トランス機構を用いて実装可能であることを確認した。
論文 参考訳(メタデータ) (2023-05-26T15:49:43Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Learning Invariant Representations using Inverse Contrastive Loss [34.93395633215398]
興味のある変数に不変な学習表現に対して,損失のクラスを導入する。
外部変数がバイナリである場合、iclの最適化は正規化mmd分岐の最適化と同値であることを示す。
論文 参考訳(メタデータ) (2021-02-16T18:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。