論文の概要: One Step of Gradient Descent is Provably the Optimal In-Context Learner
with One Layer of Linear Self-Attention
- arxiv url: http://arxiv.org/abs/2307.03576v1
- Date: Fri, 7 Jul 2023 13:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 12:30:05.821180
- Title: One Step of Gradient Descent is Provably the Optimal In-Context Learner
with One Layer of Linear Self-Attention
- Title(参考訳): 線形自己認識の1層を有する最適インテクスト学習者のグラディエント・ディフレッシュの一ステップ
- Authors: Arvind Mahankali, Tatsunori B. Hashimoto, Tengyu Ma
- Abstract要約: 最近の研究は、文脈内学習を実証的に分析している。
線形自己アテンションを持つ一層変圧器は勾配降下の一段階を実装することを学習する。
- 参考スコア(独自算出の注目度): 31.522320487765878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have empirically analyzed in-context learning and shown that
transformers trained on synthetic linear regression tasks can learn to
implement ridge regression, which is the Bayes-optimal predictor, given
sufficient capacity [Aky\"urek et al., 2023], while one-layer transformers with
linear self-attention and no MLP layer will learn to implement one step of
gradient descent (GD) on a least-squares linear regression objective [von
Oswald et al., 2022]. However, the theory behind these observations remains
poorly understood. We theoretically study transformers with a single layer of
linear self-attention, trained on synthetic noisy linear regression data.
First, we mathematically show that when the covariates are drawn from a
standard Gaussian distribution, the one-layer transformer which minimizes the
pre-training loss will implement a single step of GD on the least-squares
linear regression objective. Then, we find that changing the distribution of
the covariates and weight vector to a non-isotropic Gaussian distribution has a
strong impact on the learned algorithm: the global minimizer of the
pre-training loss now implements a single step of $\textit{pre-conditioned}$
GD. However, if only the distribution of the responses is changed, then this
does not have a large effect on the learned algorithm: even when the response
comes from a more general family of $\textit{nonlinear}$ functions, the global
minimizer of the pre-training loss still implements a single step of GD on a
least-squares linear regression objective.
- Abstract(参考訳): 近年の研究では、合成線形回帰タスクで訓練されたトランスフォーマーが、十分な容量を与えられたベイズ最適予測器であるリッジ回帰(Aky\"urek et al., 2023]を実装することができる一方で、線形自己アテンションを持つ1層トランスフォーマーは、最小二乗線形回帰目標(von Oswald et al., 2022)上で勾配勾配勾配(GD)の1ステップを実装することが実証されている。
しかし、これらの観測の背後にある理論は未だよく分かっていない。
合成雑音線形回帰データに基づいて, 線形自己アテンションの単一層を有する変圧器を理論的に検討した。
まず,コヴァリエートが標準ガウス分布から引き出されるとき,事前学習損失を最小化する一層トランスフォーマーが最小二乗線形回帰目標に対してgdの1つのステップを実行することを数学的に示す。
そして、共変量と重みベクトルの分布を非等方ガウス分布に変更することは、学習アルゴリズムに強い影響を与え、事前学習損失のグローバル最小化は、現在、$\textit{pre-conditioned}$GDの1ステップを実装している。
しかし、応答の分布だけを変えると、これは学習アルゴリズムに大きな影響を与えない:$\textit{nonlinear}$関数のより一般的な族から応答がもたらされたとしても、事前学習損失のグローバルな最小化は、最小二乗線形回帰目標に対してGDの単一ステップを実装している。
関連論文リスト
- Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scale-free Unconstrained Online Learning for Curved Losses [1.5147172044848798]
コンパレータのノルム$U$と勾配の最大ノルム$G$に同時に適応する可能性を検討する。
意外なことに、最近の研究では1ドル=Lipschitz損失の特定のケースにおいて、適応性に対するそのような価格が不要であることが示されている。
論文 参考訳(メタデータ) (2022-02-11T14:10:35Z) - Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity
Bias [34.81794649454105]
実生活ニューラルネットワークは、小さなランダムな値から成り、分類のためのクロスエントロピー損失を訓練する。
最近の結果は、勾配降下がゼロ損失を持つ「マックス・マルジン」解に収束していることを示し、これはおそらくよく一般化される。
現在の論文では、線形分離可能・対称データ上で勾配流を学習した2層ReLUネットに対して、この大域的最適性を確立することができる。
論文 参考訳(メタデータ) (2021-10-26T17:57:57Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。
近勾配法はOWL回帰を解くための標準手法として用いられる。
未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文 参考訳(メタデータ) (2020-06-29T23:35:53Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。