論文の概要: In-Context Learning through the Bayesian Prism
- arxiv url: http://arxiv.org/abs/2306.04891v1
- Date: Thu, 8 Jun 2023 02:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:44:55.625165
- Title: In-Context Learning through the Bayesian Prism
- Title(参考訳): ベイズ・プリズムによる文脈内学習
- Authors: Kabir Ahuja, Madhur Panwar, Navin Goyal
- Abstract要約: インコンテキスト学習は、大きな言語モデルの驚きと有用な特徴の1つである。
本稿では,この理想学習者の行動を示すトランスフォーマーの実証的証拠を示す。
テキスト内学習は、事前学習したデータ分布に応じて、単純さの偏りがあるかもしれないし、そうでないかもしれない。
- 参考スコア(独自算出の注目度): 7.708943730059218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning is one of the surprising and useful features of large
language models. How it works is an active area of research. Recently, stylized
meta-learning-like setups have been devised that train these models on a
sequence of input-output pairs $(x, f(x))$ from a function class using the
language modeling loss and observe generalization to unseen functions from the
same class. One of the main discoveries in this line of research has been that
for several problems such as linear regression, trained transformers learn
algorithms for learning functions in context. However, the inductive biases of
these models resulting in this behavior are not clearly understood. A model
with unlimited training data and compute is a Bayesian predictor: it learns the
pretraining distribution. It has been shown that high-capacity transformers
mimic the Bayesian predictor for linear regression. In this paper, we show
empirical evidence of transformers exhibiting the behavior of this ideal
learner across different linear and non-linear function classes. We also extend
the previous setups to work in the multitask setting and verify that
transformers can do in-context learning in this setup as well and the Bayesian
perspective sheds light on this setting also. Finally, via the example of
learning Fourier series, we study the inductive bias for in-context learning.
We find that in-context learning may or may not have simplicity bias depending
on the pretraining data distribution.
- Abstract(参考訳): インコンテキスト学習は、大きな言語モデルの驚きと有用な特徴の1つである。
どのように機能するかは、研究の活発な領域である。
近年、言語モデリングの損失を利用して関数クラスから入力出力ペアのシーケンス$(x, f(x))$でこれらのモデルをトレーニングし、同じクラスから見つからない関数への一般化を観察するスタイル化メタラーニングライクな設定が考案されている。
この研究における主要な発見の1つは、線形回帰のようないくつかの問題に対して、訓練されたトランスフォーマーが文脈における学習関数のアルゴリズムを学ぶことである。
しかし、これらのモデルがこのような振る舞いをもたらす誘導バイアスは明確には理解されていない。
無制限のトレーニングデータと計算能力を持つモデルはベイズ予測器であり、事前学習分布を学習する。
高容量変圧器は線形回帰のベイズ予測器を模倣していることが示されている。
本稿では,この理想学習者の振る舞いを示すトランスフォーマの,線形および非線形関数クラスにおける実験的な証拠を示す。
また、従来の設定をマルチタスク設定に拡張し、変換器がこの設定でコンテキスト内学習が可能であることを確認するとともに、ベイズ的視点もこの設定に光を当てる。
最後に,フーリエ級数学習の例を通じて,文脈内学習における帰納的バイアスについて検討する。
テキスト内学習は、事前学習したデータ分布に応じて、単純さの偏りがあるかもしれない。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。
理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文 参考訳(メタデータ) (2024-05-24T00:08:55Z) - Can Transformers Learn Sequential Function Classes In Context? [0.0]
インコンテキスト学習(ICL)は、NLPにおけるトランスフォーマーモデルの能力に革命をもたらした。
我々は,新しいスライディングウィンドウシーケンシャル関数クラスを導入し,GPT-2アーキテクチャを用いた玩具サイズのトランスフォーマーを用いて実験を行った。
解析により,これらのモデルが非テキストシーケンシャル関数クラスでトレーニングされた場合,実際にICLを活用できることが示唆された。
論文 参考訳(メタデータ) (2023-12-19T22:57:13Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Pretraining task diversity and the emergence of non-Bayesian in-context
learning for regression [31.950737940558984]
事前訓練されたトランスフォーマーは、文脈内学習(ICL)の顕著な能力を示す
ICLは、事前トレーニング中に見られるタスクとは大きく異なる、基本的に$textitnew$タスクを解決できますか?
論文 参考訳(メタデータ) (2023-06-26T21:05:20Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。