論文の概要: One Step of Gradient Descent is Provably the Optimal In-Context Learner
with One Layer of Linear Self-Attention
- arxiv url: http://arxiv.org/abs/2307.03576v1
- Date: Fri, 7 Jul 2023 13:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 12:30:05.821180
- Title: One Step of Gradient Descent is Provably the Optimal In-Context Learner
with One Layer of Linear Self-Attention
- Title(参考訳): 線形自己認識の1層を有する最適インテクスト学習者のグラディエント・ディフレッシュの一ステップ
- Authors: Arvind Mahankali, Tatsunori B. Hashimoto, Tengyu Ma
- Abstract要約: 最近の研究は、文脈内学習を実証的に分析している。
線形自己アテンションを持つ一層変圧器は勾配降下の一段階を実装することを学習する。
- 参考スコア(独自算出の注目度): 31.522320487765878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have empirically analyzed in-context learning and shown that
transformers trained on synthetic linear regression tasks can learn to
implement ridge regression, which is the Bayes-optimal predictor, given
sufficient capacity [Aky\"urek et al., 2023], while one-layer transformers with
linear self-attention and no MLP layer will learn to implement one step of
gradient descent (GD) on a least-squares linear regression objective [von
Oswald et al., 2022]. However, the theory behind these observations remains
poorly understood. We theoretically study transformers with a single layer of
linear self-attention, trained on synthetic noisy linear regression data.
First, we mathematically show that when the covariates are drawn from a
standard Gaussian distribution, the one-layer transformer which minimizes the
pre-training loss will implement a single step of GD on the least-squares
linear regression objective. Then, we find that changing the distribution of
the covariates and weight vector to a non-isotropic Gaussian distribution has a
strong impact on the learned algorithm: the global minimizer of the
pre-training loss now implements a single step of $\textit{pre-conditioned}$
GD. However, if only the distribution of the responses is changed, then this
does not have a large effect on the learned algorithm: even when the response
comes from a more general family of $\textit{nonlinear}$ functions, the global
minimizer of the pre-training loss still implements a single step of GD on a
least-squares linear regression objective.
- Abstract(参考訳): 近年の研究では、合成線形回帰タスクで訓練されたトランスフォーマーが、十分な容量を与えられたベイズ最適予測器であるリッジ回帰(Aky\"urek et al., 2023]を実装することができる一方で、線形自己アテンションを持つ1層トランスフォーマーは、最小二乗線形回帰目標(von Oswald et al., 2022)上で勾配勾配勾配(GD)の1ステップを実装することが実証されている。
しかし、これらの観測の背後にある理論は未だよく分かっていない。
合成雑音線形回帰データに基づいて, 線形自己アテンションの単一層を有する変圧器を理論的に検討した。
まず,コヴァリエートが標準ガウス分布から引き出されるとき,事前学習損失を最小化する一層トランスフォーマーが最小二乗線形回帰目標に対してgdの1つのステップを実行することを数学的に示す。
そして、共変量と重みベクトルの分布を非等方ガウス分布に変更することは、学習アルゴリズムに強い影響を与え、事前学習損失のグローバル最小化は、現在、$\textit{pre-conditioned}$GDの1ステップを実装している。
しかし、応答の分布だけを変えると、これは学習アルゴリズムに大きな影響を与えない:$\textit{nonlinear}$関数のより一般的な族から応答がもたらされたとしても、事前学習損失のグローバルな最小化は、最小二乗線形回帰目標に対してGDの単一ステップを実装している。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Scale-free Unconstrained Online Learning for Curved Losses [1.5147172044848798]
コンパレータのノルム$U$と勾配の最大ノルム$G$に同時に適応する可能性を検討する。
意外なことに、最近の研究では1ドル=Lipschitz損失の特定のケースにおいて、適応性に対するそのような価格が不要であることが示されている。
論文 参考訳(メタデータ) (2022-02-11T14:10:35Z) - Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity
Bias [34.81794649454105]
実生活ニューラルネットワークは、小さなランダムな値から成り、分類のためのクロスエントロピー損失を訓練する。
最近の結果は、勾配降下がゼロ損失を持つ「マックス・マルジン」解に収束していることを示し、これはおそらくよく一般化される。
現在の論文では、線形分離可能・対称データ上で勾配流を学習した2層ReLUネットに対して、この大域的最適性を確立することができる。
論文 参考訳(メタデータ) (2021-10-26T17:57:57Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。
近勾配法はOWL回帰を解くための標準手法として用いられる。
未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文 参考訳(メタデータ) (2020-06-29T23:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。