論文の概要: Transformers learn to implement preconditioned gradient descent for
in-context learning
- arxiv url: http://arxiv.org/abs/2306.00297v1
- Date: Thu, 1 Jun 2023 02:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:41:57.993776
- Title: Transformers learn to implement preconditioned gradient descent for
in-context learning
- Title(参考訳): トランスフォーマーは文脈内学習のための事前条件付き勾配降下の実装を学習する
- Authors: Kwangjun Ahn, Xiang Cheng, Hadi Daneshmand, Suvrit Sra
- Abstract要約: 変換器の複数の層が勾配降下繰り返しをシミュレートするのに十分であることを示す。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムを実装することを学べますか?
- 参考スコア(独自算出の注目度): 45.01436081424691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the striking ability of transformers for in-context learning,
several works demonstrate that transformers can implement algorithms like
gradient descent. By a careful construction of weights, these works show that
multiple layers of transformers are expressive enough to simulate gradient
descent iterations. Going beyond the question of expressivity, we ask: Can
transformers learn to implement such algorithms by training over random problem
instances? To our knowledge, we make the first theoretical progress toward this
question via analysis of the loss landscape for linear transformers trained
over random instances of linear regression. For a single attention layer, we
prove the global minimum of the training objective implements a single
iteration of preconditioned gradient descent. Notably, the preconditioning
matrix not only adapts to the input distribution but also to the variance
induced by data inadequacy. For a transformer with $k$ attention layers, we
prove certain critical points of the training objective implement $k$
iterations of preconditioned gradient descent. Our results call for future
theoretical studies on learning algorithms by training transformers.
- Abstract(参考訳): 文脈内学習のための変換器の印象的な能力に触発されたいくつかの研究は、変換器が勾配降下のようなアルゴリズムを実装できることを実証した。
重みの注意深い構成により、これらの作業は複数のトランスフォーマの層が勾配降下イテレーションをシミュレートするのに十分な表現力を持っていることを示している。
トランスフォーマーは、ランダムな問題インスタンス上でトレーニングすることで、そのようなアルゴリズムを実装することを学べますか?
我々の知る限り、線形回帰のランダムなインスタンス上で訓練された線形変圧器の損失景観の解析を通じて、この問題に対する最初の理論的前進を行う。
1つの注意層に対して、トレーニング対象のグローバルな最小値が事前条件付き勾配勾配の単一イテレーションを実装することを証明する。
特に、プレコンディショニング行列は入力分布だけでなく、データ不足によって引き起こされる分散にも適応する。
注意層が$k$の変換器の場合、トレーニング対象の特定の臨界点は、事前条件付き勾配勾配の反復を$k$で実装することを証明する。
この結果から,変圧器の訓練による学習アルゴリズムの理論的研究が望まれる。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文 参考訳(メタデータ) (2024-03-05T18:20:10Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。