論文の概要: Continuum Transformers Perform In-Context Learning by Operator Gradient Descent
- arxiv url: http://arxiv.org/abs/2505.17838v1
- Date: Fri, 23 May 2025 12:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.079867
- Title: Continuum Transformers Perform In-Context Learning by Operator Gradient Descent
- Title(参考訳): 演算子グラディエントDescentによる文脈内学習を実現する連続変圧器
- Authors: Abhiti Mishra, Yash Patel, Ambuj Tewari,
- Abstract要約: 連続体変換器は、演算子RKHSで勾配降下を実行することで、コンテキスト内演算子学習を行うことができることを示す。
本研究では、この最適性結果の実証検証を行い、この勾配降下を行うパラメータが連続変圧器訓練によって回復されることを実証する。
- 参考スコア(独自算出の注目度): 18.928543069018865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers robustly exhibit the ability to perform in-context learning, whereby their predictive accuracy on a task can increase not by parameter updates but merely with the placement of training samples in their context windows. Recent works have shown that transformers achieve this by implementing gradient descent in their forward passes. Such results, however, are restricted to standard transformer architectures, which handle finite-dimensional inputs. In the space of PDE surrogate modeling, a generalization of transformers to handle infinite-dimensional function inputs, known as "continuum transformers," has been proposed and similarly observed to exhibit in-context learning. Despite impressive empirical performance, such in-context learning has yet to be theoretically characterized. We herein demonstrate that continuum transformers perform in-context operator learning by performing gradient descent in an operator RKHS. We demonstrate this using novel proof strategies that leverage a generalized representer theorem for Hilbert spaces and gradient flows over the space of functionals of a Hilbert space. We additionally show the operator learned in context is the Bayes Optimal Predictor in the infinite depth limit of the transformer. We then provide empirical validations of this optimality result and demonstrate that the parameters under which such gradient descent is performed are recovered through the continuum transformer training.
- Abstract(参考訳): トランスフォーマーは、タスク上の予測精度がパラメータ更新によって増大するだけでなく、単にコンテキストウィンドウにトレーニングサンプルを配置することで、コンテキスト内学習を実行する能力を示す。
近年の研究では、変圧器は前方パスに勾配降下を実装することでこれを実現することが示されている。
しかし、そのような結果は有限次元入力を処理する標準トランスアーキテクチャに制限されている。
PDEサロゲートモデリングの分野では、"continuum transformer"として知られる無限次元関数入力を扱う変換器の一般化が提案され、同様に文脈内学習を示すことが観察されている。
印象的な経験的性能にもかかわらず、このような文脈内学習は理論上はまだ特徴づけられていない。
本稿では,連続体変換器が演算子RKHSで勾配降下を行うことで,文脈内演算子学習を行うことを示す。
ヒルベルト空間に対する一般化された表現定理とヒルベルト空間の函数空間上の勾配流を利用する新しい証明戦略を用いてこれを実証する。
さらに、文脈で学んだ作用素が変換器の無限深さ極限におけるベイズ最適予測器であることを示す。
次に、この最適性結果の実証検証を行い、このような勾配降下を行うパラメータが連続変圧器訓練によって復元されることを示す。
関連論文リスト
- Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought [46.71030329872635]
Chain of Thought (CoT) のプロンプトにより,大規模言語モデル (LLM) の性能が大幅に向上することが示されている。
線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2025-02-28T16:40:38Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。