論文の概要: Momentum Attention: The Physics of In-Context Learning and Spectral Forensics for Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2602.04902v1
- Date: Tue, 03 Feb 2026 21:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.524162
- Title: Momentum Attention: The Physics of In-Context Learning and Spectral Forensics for Mechanistic Interpretability
- Title(参考訳): モメンタム・アテンション:インテクスト学習の物理とメカニスティック・インタプリタビリティのための分光法学
- Authors: Kingsuk Maitra,
- Abstract要約: 本稿では,運動性差分演算子を介して物理前兆を埋め込んだシンプレクティック拡張であるMomentum Attentionを紹介する。
直流(セマンティック)と交流(メカニスティック)の信号が高パスモーメントと相互作用するときに周波数帯域に分離することが証明された直交定理を定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mechanistic Interpretability (MI) program has mapped the Transformer as a precise computational graph. We extend this graph with a conservation law and time-varying AC dynamics, viewing it as a physical circuit. We introduce Momentum Attention, a symplectic augmentation embedding physical priors via the kinematic difference operator $p_t = q_t - q_{t-1}$, implementing the symplectic shear $\hat{q}_t = q_t + γp_t$ on queries and keys. We identify a fundamental Symplectic-Filter Duality: the physical shear is mathematically equivalent to a High-Pass Filter. This duality is our cornerstone contribution -- by injecting kinematic momentum, we sidestep the topological depth constraint ($L \geq 2$) for induction head formation. While standard architectures require two layers for induction from static positions, our extension grants direct access to velocity, enabling Single-Layer Induction and Spectral Forensics via Bode Plots. We formalize an Orthogonality Theorem proving that DC (semantic) and AC (mechanistic) signals segregate into orthogonal frequency bands when Low-Pass RoPE interacts with High-Pass Momentum. Validated through 5,100+ controlled experiments (documented in Supplementary Appendices A--R and 27 Jupyter notebooks), our 125M Momentum model exceeds expectations on induction-heavy tasks while tracking a 350M baseline within $\sim$2.9% validation loss. Dedicated associative recall experiments reveal a scaling law $γ^* = 4.17 \times N^{-0.74}$ establishing momentum-depth fungibility. We offer this framework as a complementary analytical toolkit connecting Generative AI, Hamiltonian Physics, and Signal Processing.
- Abstract(参考訳): Mechanistic Interpretability (MI)プログラムは、Transformerを正確な計算グラフとしてマッピングした。
我々はこのグラフを保存則と時変交流力学で拡張し、物理回路と見なす。
キーとキーにシンプレクティックシーアを組み込んだ,運動差分演算子 $p_t = q_t - q_{t-1}$ で物理先行を埋め込んだシンプレクティック拡張である Momentum Attention を導入する。
物理せん断は数学的にハイパスフィルタと等価である。
この双対性は、キネマティックモーメントを注入することで、帰納的頭部形成のための位相的深さ制約(L \geq 2$)を横取りする。
標準アーキテクチャでは静的位置からの誘導には2つのレイヤが必要であるが、我々の拡張はベロシティへの直接アクセスを許可し、Bode Plotsを介してSingle-LayerインジェクションとSpectral Forensicsを可能にする。
直流(セマンティック)と交流(メカニスティック)の信号が高パスモーメントと相互作用するときに直交周波数帯域に分離することが証明された直交性定理を定式化する。
125M Momentumモデルは、5,100以上の制御された実験(補助アペンデンスA-Rと27のJupyterノートに文書化されている)を通じて検証され、インダクション重タスクに対する期待を超え、$\sim$2.9%のバリデーション損失で350Mのベースラインを追跡する。
連想的リコール実験により、スケール法は$γ^* = 4.17 \times N^{-0.74}$である。
我々はこのフレームワークを、生成AI、ハミルトン物理学、信号処理を接続する補完的分析ツールキットとして提供する。
関連論文リスト
- Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds [0.4779196219827507]
本研究では,トランスフォーマーアテンションヘッドにおいて,クロスエントロピートレーニングがアテンションスコアとバリューベクターをいかに再帰させるかを示す。
私たちの中核的な成果は、注目スコアに対する強調に基づくルーティング法です。
この結合された特殊化は、2時間規模のEMプロシージャのように振る舞うことを示す。
論文 参考訳(メタデータ) (2025-12-27T05:31:44Z) - Analytical blueprint for 99.999% fidelity X-gates on present superconducting hardware under strong driving [4.406638884109584]
既存のデコヒーレンスレートを組み込んだ場合, 7ns$-rotationに対して, 10~5$以下のゲート不忠実度を数値的に示す。
また、DRAGプリファクタの最適値に関する長年の質問にも答えるとともに、常にデチューンする。
論文 参考訳(メタデータ) (2025-12-22T22:47:43Z) - Renormalizable Spectral-Shell Dynamics as the Origin of Neural Scaling Laws [2.779943773196378]
高い非線形最適化ダイナミクスにもかかわらず、ディープ・ネットワーク・トレーニングは単純なマクロ構造に従うことを示す。
平均二乗誤差損失の場合、トレーニングエラーは$dot e_t=-M(t)e_t$と$M(t)=J_(t)J_(t)!*$として進化する。
このフレームワークは、ニューラルスケーリング法則と二重降下を説明し、遅延(NTKライクな)トレーニングと特徴学習を同一スペクトルシェルの2つの限界として統一する。
論文 参考訳(メタデータ) (2025-12-11T08:38:46Z) - Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery [98.58830663687911]
VIPERR-aq1は、方程式推論のための視覚誘導を行うマルチモーダルモデルである。
視覚知覚、軌跡データ、象徴的推論を統合し、科学的発見過程をエミュレートする。
常に最先端のVLMベースラインを精度と解釈性で上回る。
論文 参考訳(メタデータ) (2025-08-24T14:34:21Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
ResNets と Fully-Connected Nets を相互接続する Leaky ResNets について「有効深度」に依存して検討する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - Accelerating superconductor discovery through tempered deep learning of
the electron-phonon spectral function [0.0]
深層学習モデルを用いて電子フォノンスペクトル関数, $alpha2F(omega)$を予測する。
次に、サイトが提案するフォノン密度状態のドメイン知識を組み込んで、モデルのノード属性に帰納バイアスを課し、予測を強化する。
この方法の革新は、MAEを0.18、29K、28Kに減少させ、それぞれ2.1KのMAEを$T_c$とする。
論文 参考訳(メタデータ) (2024-01-29T22:44:28Z) - Continuous-time quantum walks in the presence of a quadratic
perturbation [55.41644538483948]
連続時間量子ウォークの特性を、$mathcalH=L + lambda L2$という形のハミルトン群で解決する。
低/高接続性および/または対称性を持つパラダイムモデルであるため、サイクル、完全、およびスターグラフを考える。
論文 参考訳(メタデータ) (2020-05-13T14:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。