論文の概要: In-Context Learning through the Bayesian Prism
- arxiv url: http://arxiv.org/abs/2306.04891v1
- Date: Thu, 8 Jun 2023 02:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:44:55.625165
- Title: In-Context Learning through the Bayesian Prism
- Title(参考訳): ベイズ・プリズムによる文脈内学習
- Authors: Kabir Ahuja, Madhur Panwar, Navin Goyal
- Abstract要約: インコンテキスト学習は、大きな言語モデルの驚きと有用な特徴の1つである。
本稿では,この理想学習者の行動を示すトランスフォーマーの実証的証拠を示す。
テキスト内学習は、事前学習したデータ分布に応じて、単純さの偏りがあるかもしれないし、そうでないかもしれない。
- 参考スコア(独自算出の注目度): 7.708943730059218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning is one of the surprising and useful features of large
language models. How it works is an active area of research. Recently, stylized
meta-learning-like setups have been devised that train these models on a
sequence of input-output pairs $(x, f(x))$ from a function class using the
language modeling loss and observe generalization to unseen functions from the
same class. One of the main discoveries in this line of research has been that
for several problems such as linear regression, trained transformers learn
algorithms for learning functions in context. However, the inductive biases of
these models resulting in this behavior are not clearly understood. A model
with unlimited training data and compute is a Bayesian predictor: it learns the
pretraining distribution. It has been shown that high-capacity transformers
mimic the Bayesian predictor for linear regression. In this paper, we show
empirical evidence of transformers exhibiting the behavior of this ideal
learner across different linear and non-linear function classes. We also extend
the previous setups to work in the multitask setting and verify that
transformers can do in-context learning in this setup as well and the Bayesian
perspective sheds light on this setting also. Finally, via the example of
learning Fourier series, we study the inductive bias for in-context learning.
We find that in-context learning may or may not have simplicity bias depending
on the pretraining data distribution.
- Abstract(参考訳): インコンテキスト学習は、大きな言語モデルの驚きと有用な特徴の1つである。
どのように機能するかは、研究の活発な領域である。
近年、言語モデリングの損失を利用して関数クラスから入力出力ペアのシーケンス$(x, f(x))$でこれらのモデルをトレーニングし、同じクラスから見つからない関数への一般化を観察するスタイル化メタラーニングライクな設定が考案されている。
この研究における主要な発見の1つは、線形回帰のようないくつかの問題に対して、訓練されたトランスフォーマーが文脈における学習関数のアルゴリズムを学ぶことである。
しかし、これらのモデルがこのような振る舞いをもたらす誘導バイアスは明確には理解されていない。
無制限のトレーニングデータと計算能力を持つモデルはベイズ予測器であり、事前学習分布を学習する。
高容量変圧器は線形回帰のベイズ予測器を模倣していることが示されている。
本稿では,この理想学習者の振る舞いを示すトランスフォーマの,線形および非線形関数クラスにおける実験的な証拠を示す。
また、従来の設定をマルチタスク設定に拡張し、変換器がこの設定でコンテキスト内学習が可能であることを確認するとともに、ベイズ的視点もこの設定に光を当てる。
最後に,フーリエ級数学習の例を通じて,文脈内学習における帰納的バイアスについて検討する。
テキスト内学習は、事前学習したデータ分布に応じて、単純さの偏りがあるかもしれない。
関連論文リスト
- In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - A Closer Look at In-Context Learning under Distribution Shifts [24.59271215602147]
線形回帰の単純かつ基本的なタスクのレンズから、文脈内学習の一般性と限界をよりよく理解することを目的としている。
変圧器とセットベース分布の両方が, 正規最小二乗(OLS)の性能をより密にエミュレートし, 文脈内学習による分布評価を行うことがわかった。
トランスフォーマーはまた、セットベースの分散がフェーターとなる、軽微な分散シフトに対するレジリエンスも向上している。
論文 参考訳(メタデータ) (2023-05-26T07:47:21Z) - On Inductive Biases for Machine Learning in Data Constrained Settings [0.0]
この論文は、データ制約された設定で表現力のあるモデルを学ぶという問題に対する異なる答えを探求する。
ニューラルネットワークを学ぶために、大きなデータセットに頼るのではなく、データ構造を反映した既知の関数によって、いくつかのモジュールを置き換えるつもりです。
我々のアプローチは「帰納的バイアス」のフードの下に置かれており、これは探索するモデルの空間を制限する手元にあるデータの仮説として定義することができる。
論文 参考訳(メタデータ) (2023-02-21T14:22:01Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文 参考訳(メタデータ) (2022-08-01T18:01:40Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。