論文の概要: Gradient Flow Structure and Quantitative Dynamics of Multi-Head Self-Attention
- arxiv url: http://arxiv.org/abs/2605.04279v1
- Date: Tue, 05 May 2026 20:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.538322
- Title: Gradient Flow Structure and Quantitative Dynamics of Multi-Head Self-Attention
- Title(参考訳): 多面自己注意の勾配流れ構造と定量的ダイナミクス
- Authors: Ayan Pendharkar,
- Abstract要約: 変圧器の自己アテンションは単位球上の勾配流と解釈できる。
我々は,マルチヘッド自己注意力学の理論的枠組みを開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer self-attention can be interpreted as a gradient flow on the unit sphere, in which tokens evolve under softmax interaction potentials and tend to form clusters. While prior work has established clustering behavior for single-head attention, the multi-head setting remains less understood due to geometric interference between heads, which invalidates standard monotonicity arguments. In this work, we develop a theoretical framework for multi-head self-attention dynamics and resolve several open questions. We show that, under suitable conditions on the score matrices, a natural multi-head energy functional is non-decreasing along both flat and spherical dynamics. We identify the key obstruction to per-head monotonicity as radial shadow terms, which are projections of each head's output onto token directions, persisting even under orthogonality assumptions. We introduce a sufficient condition ensuring monotonicity and establish robustness to approximate orthogonality. In a simplified scalar-head regime with equiangular token configurations, we derive a closed-form expression for the critical inverse temperature governing clustering behavior, and show that heterogeneous heads exhibit super-additive clustering rates. In this regime, we also prove a separation in clustering time between ReLU and softmax attention in the linearized dynamics. Finally, we establish an entropy production identity and show that attention entropy increases monotonically toward equilibrium as clustering progresses. Our results provide a unified perspective on the dynamics of multi-head attention and clarify the mechanisms underlying clustering and stability in transformer models.
- Abstract(参考訳): トランスフォーマー自己アテンションは単位球上の勾配流と解釈でき、そこではトークンはソフトマックス相互作用ポテンシャルの下で進化し、クラスターを形成する傾向がある。
以前の研究は、単一ヘッドの注意のためにクラスタリングの挙動を確立してきたが、頭部間の幾何学的干渉により、標準的な単調な議論が無効になるため、マルチヘッド設定は理解されていない。
本研究では,マルチヘッド自己注意力学の理論的枠組みを開発し,いくつかのオープンな問題を解く。
スコア行列の適切な条件下では、自然多頭部エネルギー関数は平板と球面の両方の力学に沿って非減少することを示す。
各頭部の出力をトークン方向へ投影し,直交仮定の下でも持続する放射影項として,頭部の単調性に対する重要な障害を同定する。
我々は、単調性を保証する十分な条件を導入し、近似直交性を確立する。
均一なトークン構成を持つ簡易なスカラーヘッド方式では、臨界逆温度制御クラスタリング挙動のクローズドフォーム式を導出し、ヘテロジニアスヘッドが超付加的なクラスタリング速度を示すことを示す。
また、線形化力学において、ReLUとソフトマックスのアテンションのクラスタリング時間の分離を証明した。
最後に、エントロピー生産のアイデンティティを確立し、アテンション・エントロピーがクラスタリングの進行に伴って平衡に対して単調に増加することを示す。
本結果は,マルチヘッドアテンションのダイナミクスを統一的に把握し,トランスフォーマーモデルにおけるクラスタリングと安定性のメカニズムを明らかにする。
関連論文リスト
- Homogenized Transformers [5.290251602267728]
重みを層や頭部で独立に再サンプリングする多頭部自己注意のランダムモデルについて検討した。
この力学系は, 深さ, 残留段数, および頭部の個数の適切な関節スケーリングの下では, 非自明な限界を許容する。
論文 参考訳(メタデータ) (2026-04-02T12:39:27Z) - KoopGen: Koopman Generator Networks for Representing and Predicting Dynamical Systems with Continuous Spectra [65.11254608352982]
生成元をベースとしたニューラル・クープマン・フレームワークを導入し,構造的かつ状態に依存したクープマン・ジェネレータの表現を通じて動的にモデル化する。
固有のカルテス分解をスキュー結合および自己結合成分に利用することにより、KoopGenは可逆的な散逸から保守的な輸送を分離する。
論文 参考訳(メタデータ) (2026-02-15T06:32:23Z) - State Rank Dynamics in Linear Attention LLMs [37.607046806053035]
州の階級階層化は、線形アテンションヘッド間で異なるスペクトル分岐によって特徴づけられる。
低ランクの頭部はモデル推論に欠かせないが、高ランクの頭部は顕著な冗長性を示す。
我々は,KVキャッシュのオーバーヘッドを38.9%削減し,モデル精度を大きく維持するゼロショット戦略であるJoint Rank-Norm Pruningを提案する。
論文 参考訳(メタデータ) (2026-02-02T15:00:42Z) - The Geometric Mechanics of Contrastive Representation Learning: Alignment Potentials, Entropic Dispersion, and Cross-Modal Divergence [17.501700376593174]
固定埋め込み多様体上の表現測度の進化として学習をモデル化する測度理論フレームワークを提案する。
大規模バッチ限界における値と整合性を確立することにより、不整合目標を明示的なエネルギー景観に橋渡しする。
この用語は,構造的幾何学的必要条件として,人口レベルのモダリティギャップを強制するバリア駆動型共適応を誘導することを示す。
論文 参考訳(メタデータ) (2026-01-27T13:33:03Z) - Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - The Mean-Field Dynamics of Transformers [6.008788032203683]
球面への注意を理想化することにより、トランスフォーマーダイナミクスをワッサーシュタイン勾配流(Kuramoto)と平均シフトクラスタリングに接続する。
その結果、表現の崩壊を促進するメカニズムと、深層アーキテクチャにおける表現力に富んだマルチクラスタ構造を維持する体制の両方を強調した。
論文 参考訳(メタデータ) (2025-12-01T16:51:00Z) - RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Dynamics of inhomogeneous spin ensembles with all-to-all interactions:
breaking permutational invariance [49.1574468325115]
スピンアンサンブルのダイナミクスにおける非一様初期条件の導入の結果について検討する。
スピンアンサンブルのダイナミクスは、より拡張性のあるヒルベルト空間にまたがっていることが分かる。
論文 参考訳(メタデータ) (2023-09-19T16:44:14Z) - Driven-dissipative Ising Model: An exact field-theoretical analysis [0.0]
駆動散逸多体系は、非平衡力学、散逸、多体相互作用により解析的に解析することが困難である。
我々は、単純な散乱図から理解可能な、正確な場の理論解析とスピンモデルの図式表現を開発する。
論文 参考訳(メタデータ) (2021-01-13T19:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。