論文の概要: Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics
- arxiv url: http://arxiv.org/abs/2603.13085v1
- Date: Fri, 13 Mar 2026 15:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.159987
- Title: Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics
- Title(参考訳): リニアライズド・アテンションにおける悪性度の影響:非収束NTKダイナミクスの二重含意
- Authors: Jose Marie Antonio Miñoza, Paulo Mario P. Medina, Sebastian C. Ibañez,
- Abstract要約: 線形化された注意はその無限幅のNTK限界に収束しないことを示す。
また、注意力と脆弱性は、カーネル体制からの離脱に共通点があることも示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the theoretical foundations of attention mechanisms remains challenging due to their complex, non-linear dynamics. This work reveals a fundamental trade-off in the learning dynamics of linearized attention. Using a linearized attention mechanism with exact correspondence to a data-dependent Gram-induced kernel, both empirical and theoretical analysis through the Neural Tangent Kernel (NTK) framework shows that linearized attention does not converge to its infinite-width NTK limit, even at large widths. A spectral amplification result establishes this formally: the attention transformation cubes the Gram matrix's condition number, requiring width $m = Ω(κ^6)$ for convergence, a threshold that exceeds any practical width for natural image datasets. This non-convergence is characterized through influence malleability, the capacity to dynamically alter reliance on training examples. Attention exhibits 6--9$\times$ higher malleability than ReLU networks, with dual implications: its data-dependent kernel can reduce approximation error by aligning with task structure, but this same sensitivity increases susceptibility to adversarial manipulation of training data. These findings suggest that attention's power and vulnerability share a common origin in its departure from the kernel regime.
- Abstract(参考訳): 注意機構の理論的基礎を理解することは、その複雑で非線形な力学のために依然として困難である。
この研究は線形化注意の学習力学における基本的なトレードオフを明らかにする。
データ依存型Gram誘導カーネルと正確に対応した線形化アテンション機構を用いて、ニューラルタンジェントカーネル(NTK)フレームワークによる経験的および理論的解析は、大きな幅であっても、線形化アテンションがその無限幅NTK限界に収束しないことを示している。
注意変換はグラマー行列の条件番号を立方体化し、自然画像データセットの任意の実用的な幅を超える収束のために、幅$m = Ω(κ^6)$を必要とする。
この非収束性は、インフルエンス・モールタビリティ(英語版)、トレーニング例による動的変更能力によって特徴づけられる。
データ依存カーネルは、タスク構造と整合して近似誤差を低減することができるが、この同じ感度は、トレーニングデータの敵の操作に対する感受性を高める。
これらの知見は、注意力と脆弱性がカーネル体制からの離脱の共通の起源であることを示唆している。
関連論文リスト
- TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors [53.891337639229285]
高次アテンション・インタラクション接続を通して表現された入力依存線形演算子として変換器全体をキャプチャする新しい定式化である attentionLens を導入する。
本実験は,注目テンソルが,解釈可能性とモデル理解を目的としたツール開発のための強力な基盤となることを実証した。
論文 参考訳(メタデータ) (2026-01-25T19:21:25Z) - Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - Information-Theoretic Bounds and Task-Centric Learning Complexity for Real-World Dynamic Nonlinear Systems [0.6875312133832079]
動的非線形系は静的および動的効果の結合による歪みを示す。
本稿では, 構造化分解, 分散解析, タスク中心の複雑性境界に基づく理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-08T12:08:02Z) - Analysis of Fourier Neural Operators via Effective Field Theory [11.824913874212802]
無限次元関数空間におけるFNOの体系的有効場理論解析について述べる。
非線形な活性化は、必然的に周波数入力を周波数モードに分割し、それ以外はスペクトル乱れによって破棄されることを示す。
本研究は, 非線形性によってニューラル演算子が非自明な特徴を捉えることができることの定量化と, スケール不変なアクティベーションと残差接続がFNOにおける特徴学習を促進する理由を説明するものである。
論文 参考訳(メタデータ) (2025-07-29T14:10:46Z) - A Random Matrix Analysis of In-context Memorization for Nonlinear Attention [18.90197287760915]
非線形注意は、ランダムな入力に対する線形リッジ回帰よりも高い記憶誤差をもたらすことを示す。
その結果,非線形注意の記憶性能を管理するために,非線形性と入力構造がどのように相互作用するかが明らかになった。
論文 参考訳(メタデータ) (2025-06-23T13:56:43Z) - Revealing Decurve Flows for Generalized Graph Propagation [108.80758541147418]
本研究は,有向グラフと重み付きグラフを用いて,m文を一般化した伝播を定義することによって,従来のメッセージパッシング(中心からグラフ学習)の限界に対処する。
この分野ではじめて、データセットにおける学習された伝播パターンの予備的な探索を含む。
論文 参考訳(メタデータ) (2024-02-13T14:13:17Z) - Weak Correlations as the Underlying Principle for Linearization of
Gradient-Based Learning Systems [1.0878040851638]
本稿では,パラメータの動的構造を線形に表示する勾配降下に基づく学習アルゴリズムについて述べる。
この明らかな線型性は、仮説関数の第一階微分と高階微分の間の弱い相関によるものである。
線形性と弱相関の関係を爆発させることにより,勾配降下の訓練軌道中に観測された線形性から偏差を導出する。
論文 参考訳(メタデータ) (2024-01-08T16:44:23Z) - SEGNO: Generalizing Equivariant Graph Neural Networks with Physical
Inductive Biases [66.61789780666727]
等変性を維持しながら, 2階連続性をGNNに組み込む方法を示す。
また、SEGNOに関する理論的知見も提供し、隣接する状態間の一意の軌跡を学習できることを強調している。
我々のモデルは最先端のベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-25T07:15:58Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。