Fugu-MT 論文翻訳(概要): One Step of Gradient Descent is Provably the Optimal In-Context Learner with One Layer of Linear Self-Attention

論文の概要: One Step of Gradient Descent is Provably the Optimal In-Context Learner with One Layer of Linear Self-Attention

arxiv url: http://arxiv.org/abs/2307.03576v1
Date: Fri, 7 Jul 2023 13:09:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-10 12:30:05.821180
Title: One Step of Gradient Descent is Provably the Optimal In-Context Learner with One Layer of Linear Self-Attention
Title（参考訳）: 線形自己認識の1層を有する最適インテクスト学習者のグラディエント・ディフレッシュの一ステップ
Authors: Arvind Mahankali, Tatsunori B. Hashimoto, Tengyu Ma
Abstract要約: 最近の研究は、文脈内学習を実証的に分析している。線形自己アテンションを持つ一層変圧器は勾配降下の一段階を実装することを学習する。
参考スコア（独自算出の注目度）: 31.522320487765878
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works have empirically analyzed in-context learning and shown that transformers trained on synthetic linear regression tasks can learn to implement ridge regression, which is the Bayes-optimal predictor, given sufficient capacity [Aky\"urek et al., 2023], while one-layer transformers with linear self-attention and no MLP layer will learn to implement one step of gradient descent (GD) on a least-squares linear regression objective [von Oswald et al., 2022]. However, the theory behind these observations remains poorly understood. We theoretically study transformers with a single layer of linear self-attention, trained on synthetic noisy linear regression data. First, we mathematically show that when the covariates are drawn from a standard Gaussian distribution, the one-layer transformer which minimizes the pre-training loss will implement a single step of GD on the least-squares linear regression objective. Then, we find that changing the distribution of the covariates and weight vector to a non-isotropic Gaussian distribution has a strong impact on the learned algorithm: the global minimizer of the pre-training loss now implements a single step of $\textit{pre-conditioned}$ GD. However, if only the distribution of the responses is changed, then this does not have a large effect on the learned algorithm: even when the response comes from a more general family of $\textit{nonlinear}$ functions, the global minimizer of the pre-training loss still implements a single step of GD on a least-squares linear regression objective.
Abstract（参考訳）: 近年の研究では、合成線形回帰タスクで訓練されたトランスフォーマーが、十分な容量を与えられたベイズ最適予測器であるリッジ回帰(Aky\"urek et al., 2023]を実装することができる一方で、線形自己アテンションを持つ1層トランスフォーマーは、最小二乗線形回帰目標(von Oswald et al., 2022)上で勾配勾配勾配(GD)の1ステップを実装することが実証されている。しかし、これらの観測の背後にある理論は未だよく分かっていない。合成雑音線形回帰データに基づいて, 線形自己アテンションの単一層を有する変圧器を理論的に検討した。まず,コヴァリエートが標準ガウス分布から引き出されるとき,事前学習損失を最小化する一層トランスフォーマーが最小二乗線形回帰目標に対してgdの1つのステップを実行することを数学的に示す。そして、共変量と重みベクトルの分布を非等方ガウス分布に変更することは、学習アルゴリズムに強い影響を与え、事前学習損失のグローバル最小化は、現在、$\textit{pre-conditioned}$GDの1ステップを実装している。しかし、応答の分布だけを変えると、これは学習アルゴリズムに大きな影響を与えない:$\textit{nonlinear}$関数のより一般的な族から応答がもたらされたとしても、事前学習損失のグローバルな最小化は、最小二乗線形回帰目標に対してGDの単一ステップを実装している。

関連論文リスト

A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文参考訳（メタデータ） (2025-06-18T15:10:38Z)
Learning Curves of Stochastic Gradient Descent in Kernel Regression [7.063108005500741]
我々は、ソース条件下でのカーネル回帰において、シングルパスグラディエントDescent (SGD) を解析する。驚くべきことに、SGD はすべてのスケールで最大 min-max の最適速度を達成する。 SGDが飽和の呪いを克服する主な理由は、指数関数的に減衰するステップサイズスケジュールである。
論文参考訳（メタデータ） (2025-05-28T07:16:11Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文参考訳（メタデータ） (2024-05-27T05:41:06Z)
Theoretical Characterization of the Generalization Performance of Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文参考訳（メタデータ） (2023-04-09T20:36:13Z)
Understanding Incremental Learning of Gradient Descent: A Fine-grained Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文参考訳（メタデータ） (2023-01-27T02:30:51Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
Scale-free Unconstrained Online Learning for Curved Losses [1.5147172044848798]
コンパレータのノルム$U$と勾配の最大ノルム$G$に同時に適応する可能性を検討する。意外なことに、最近の研究では1ドル=Lipschitz損失の特定のケースにおいて、適応性に対するそのような価格が不要であることが示されている。
論文参考訳（メタデータ） (2022-02-11T14:10:35Z)
Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias [34.81794649454105]
実生活ニューラルネットワークは、小さなランダムな値から成り、分類のためのクロスエントロピー損失を訓練する。最近の結果は、勾配降下がゼロ損失を持つ「マックス・マルジン」解に収束していることを示し、これはおそらくよく一般化される。現在の論文では、線形分離可能・対称データ上で勾配流を学習した2層ReLUネットに対して、この大域的最適性を確立することができる。
論文参考訳（メタデータ） (2021-10-26T17:57:57Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。近勾配法はOWL回帰を解くための標準手法として用いられる。未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文参考訳（メタデータ） (2020-06-29T23:35:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。