論文の概要: Transformers Can Implement Preconditioned Richardson Iteration for In-Context Gaussian Kernel Regression
- arxiv url: http://arxiv.org/abs/2605.08475v1
- Date: Fri, 08 May 2026 20:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.67373
- Title: Transformers Can Implement Preconditioned Richardson Iteration for In-Context Gaussian Kernel Regression
- Title(参考訳): In-Context Gaussian Kernel Regression のための事前条件付き Richardson Iteration の実装
- Authors: Mingsong Yan, Dongyang Li, Charles Kulick, Sui Tang,
- Abstract要約: ガウスカーネルを用いたインコンテキストカーネルリッジ回帰(KRR)について検討する。
我々は,標準ソフトマックスアテンション変換器が前方通過時のKRR予測器を近似可能であることを示す。
その誤差プロファイルは、事前条件付きリチャードソン反復と最も一貫して一致していることが分かる。
- 参考スコア(独自算出の注目度): 13.818160005611752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic accounts of in-context learning (ICL) have identified iterative algorithms for linear regression and related linear prediction tasks, often using linear or ReLU attention variants. For nonlinear ICL, prior work has related softmax and kernelized attention to functional-gradient-type dynamics, but it remains unclear whether a standard transformer with softmax attention can implement a convergent solver with an end-to-end prediction-error guarantee. In this paper, we study in-context kernel ridge regression (KRR) with Gaussian kernels and show that a standard softmax-attention transformer can approximate the KRR predictor during its forward pass by implementing preconditioned Richardson iteration on the associated kernel linear system. Under bounded-data assumptions, we construct a single-head transformer with $O(\log(1/ε))$ blocks and MLP width $O(\sqrt{N/ε})$ that achieves $ε$-accurate prediction for prompts of length $N$. Our construction reveals a functional decomposition within the transformer architecture: softmax attention produces a row-normalized Gaussian-kernel operator needed for cross-token interactions, while ReLU MLP layers act locally to approximate the intra-token scalar arithmetic required by the update. Empirically, we train GPT-2-style transformers on Gaussian-process regression tasks to further test the preconditioned Richardson interpretation. Through linear probing, we compare the transformer's layer-wise predictions with the step-wise outputs of classical KRR solvers and find that its error profiles align most consistently with preconditioned Richardson iteration. Ablation studies further support this interpretation. Together, our theory and experiments identify preconditioned Richardson iteration as a concrete mechanism that softmax-attention transformers can realize for nonlinear in-context Gaussian-kernel regression.
- Abstract(参考訳): 文脈内学習(ICL)の力学的な説明は、線形回帰および関連する線形予測タスクの反復アルゴリズムを、しばしば線形またはReLU注意変種を用いて同定している。
非線形ICLの場合、先行研究はソフトマックスと関数次数型力学に関連があるが、ソフトマックスに注意を向けた標準変圧器がエンドツーエンドの予測エラーを保証した収束解器を実装できるかどうかは不明である。
本稿では、ガウスカーネルを用いたインコンテキストカーネルリッジ回帰(KRR)について検討し、標準ソフトマックスアテンション変換器が、関連するカーネル線形系に事前条件付きリチャードソン繰り返しを実装することにより、前方通過中にKRR予測器を近似可能であることを示す。
有界データ仮定の下では、$O(\log(1/ε))$ブロックとMLP幅$O(\sqrt{N/ε})$を持つ単一ヘッド変換器を構築し、長さ$N$のプロンプトに対して$ε$精度の予測を行う。
ソフトマックスアテンションは、クロストケン相互作用に必要な行正規化ガウスカーネル演算子を生成し、ReLU MLP層は、更新に必要なトーケン内スカラー演算を近似するために局所的に作用する。
経験的に、我々はガウス過程の回帰タスクでGPT-2スタイルの変換器を訓練し、事前条件付きリチャードソン解釈をさらに検証する。
線形探索により、変換器の層次予測と古典的KRRソルバのステップ次出力を比較し、その誤差プロファイルがプリコンディショニングされたリチャードソンの繰り返しとほぼ一致していることを見出した。
アブレーション研究はこの解釈をさらに支持している。
この理論と実験により、プレコンディショニングされたリチャードソン反復は、ソフトマックスアテンション変換器が非線形な文脈内ガウス-カーネル回帰を実現するための具体的なメカニズムであると同定された。
関連論文リスト
- Cubit: Token Mixer with Kernel Ridge Regression [30.306738326416223]
変換器のアテンションモジュールは,Nadaraya-Watsonレグレッションの実行と解釈できることを示す。
Kernel Ridge Regression (KRR)を活用する次世代アーキテクチャCubitを提案する。
我々は、KRRベースのアーキテクチャであるCubitが、バニラ変換器よりも強力な数学的基盤を提供すると主張している。
論文 参考訳(メタデータ) (2026-05-07T16:18:55Z) - LaplacianFormer:Rethinking Linear Attention with Laplacian Kernel [27.87296519831803]
ソフトマックスアテンションの二次的複雑さは、トランスフォーマーを高解像度の視覚タスクにスケーリングする上で大きな障害となる。
ソフトマックスの代わりにラプラシアンカーネルを用いるトランスフォーマー変種であるラプラシアンフォーマーを提案する。
ImageNetの実験では、LaplacianFormerは高いパフォーマンスと効率のトレードオフを実現し、注意力を高めている。
論文 参考訳(メタデータ) (2026-04-22T09:04:54Z) - In-context Learning for Mixture of Linear Regressions: Existence, Generalization and Training Dynamics [34.458004744956334]
高い確率で$mathcalO(sqrtd/n)$の予測誤差を達成できる変換器が存在することを証明した。
また, 1 つの線形自己アテンション層を持つ変圧器のトレーニング力学を解析し, 適切なパラメータで, 人口平均平方損失に対する勾配流の最適化が大域的最適に収束することを示した。
論文 参考訳(メタデータ) (2024-10-18T05:28:47Z) - Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。
Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。
我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:06:06Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。