論文の概要: What learning algorithm is in-context learning? Investigations with
linear models
- arxiv url: http://arxiv.org/abs/2211.15661v1
- Date: Mon, 28 Nov 2022 18:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:19:45.386087
- Title: What learning algorithm is in-context learning? Investigations with
linear models
- Title(参考訳): コンテキスト内学習はどのような学習アルゴリズムか?
線形モデルによる研究
- Authors: Ekin Aky\"urek, Dale Schuurmans, Jacob Andreas, Tengyu Ma, Denny Zhou
- Abstract要約: 本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
- 参考スコア(独自算出の注目度): 87.91612418166464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural sequence models, especially transformers, exhibit a remarkable
capacity for in-context learning. They can construct new predictors from
sequences of labeled examples $(x, f(x))$ presented in the input without
further parameter updates. We investigate the hypothesis that transformer-based
in-context learners implement standard learning algorithms implicitly, by
encoding smaller models in their activations, and updating these implicit
models as new examples appear in the context. Using linear regression as a
prototypical problem, we offer three sources of evidence for this hypothesis.
First, we prove by construction that transformers can implement learning
algorithms for linear models based on gradient descent and closed-form ridge
regression. Second, we show that trained in-context learners closely match the
predictors computed by gradient descent, ridge regression, and exact
least-squares regression, transitioning between different predictors as
transformer depth and dataset noise vary, and converging to Bayesian estimators
for large widths and depths. Third, we present preliminary evidence that
in-context learners share algorithmic features with these predictors: learners'
late layers non-linearly encode weight vectors and moment matrices. These
results suggest that in-context learning is understandable in algorithmic
terms, and that (at least in the linear case) learners may rediscover standard
estimation algorithms. Code and reference implementations released at this
$\href{https://github.com/ekinakyurek/google-research/blob/master/incontext}{http\,link}$.
- Abstract(参考訳): ニューラルシーケンスモデル、特にトランスフォーマーは、文脈内学習において顕著な能力を示す。
ラベル付き例のシーケンスから新しい予測器を構築することができ、追加のパラメータ更新なしに入力に$(x, f(x))$が表示される。
本稿では,トランスフォーマーをベースとしたインコンテキスト学習者が,より小さなモデルをアクティベーションに符号化することで,暗黙的な学習アルゴリズムを暗黙的に実装する仮説について検討する。
線形回帰を原型問題として用いることで,この仮説の証拠を3つ提示する。
まず, 勾配降下と閉形式リッジ回帰に基づく線形モデルのための学習アルゴリズムをトランスフォーマーが実装できることを示す。
第2に, 学習者は, 勾配降下, リッジ回帰, および完全最小二乗回帰によって計算された予測器と密接に一致し, トランスフォーマタ深さやデータセットノイズが変化するため, 予測器間の遷移が変化し, 広い幅と深さのベイズ推定器に収束することを示した。
第3に,学習者の後期層が重みベクトルやモーメント行列を非線形にエンコードする,文脈内学習者がアルゴリズム的特徴をこれらの予測器と共有する,予備的証拠を示す。
これらの結果は,文脈内学習がアルゴリズム的に理解可能であり,(少なくとも線形の場合)学習者が標準推定アルゴリズムを再発見できることを示唆している。
この$\href{https://github.com/ekinakyurek/google-research/blob/master/incontext}{http\,link}$でリリースされたコードと参照実装。
関連論文リスト
- In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - In-Context Learning through the Bayesian Prism [7.708943730059218]
インコンテキスト学習は、大きな言語モデルの驚きと有用な特徴の1つである。
本稿では,この理想学習者の行動を示すトランスフォーマーの実証的証拠を示す。
テキスト内学習は、事前学習したデータ分布に応じて、単純さの偏りがあるかもしれないし、そうでないかもしれない。
論文 参考訳(メタデータ) (2023-06-08T02:38:23Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - Granger Causality using Neural Networks [8.835231777363399]
基礎となる非線形性を扱うことができるモデルの新しいクラスをいくつか提示する。
罰則を分離することで、遅延と個々の時系列の重要度を直接分離できることを示す。
また,脱カップリングしたペナルティによって,遅延と個々の時系列の重要度を直接分離できることを示す。
論文 参考訳(メタデータ) (2022-08-07T12:02:48Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Deep Learning for Quantile Regression under Right Censoring:
DeepQuantreg [1.0152838128195467]
本稿では,ニューラルネットワークのリバイバルデータに対する量子レグレッションへの応用について述べる。
本研究の目的は, 従来の量子回帰法と比較して, 非線形パターンを正確に予測できるほど, 深層学習法が柔軟であることを示すことである。
論文 参考訳(メタデータ) (2020-07-14T14:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。