論文の概要: Multi-Headed Transformer Architectures as Time-dependent Wasserstein Gradient Flows
- arxiv url: http://arxiv.org/abs/2605.18870v1
- Date: Fri, 15 May 2026 15:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.758145
- Title: Multi-Headed Transformer Architectures as Time-dependent Wasserstein Gradient Flows
- Title(参考訳): 時間依存ワッサースタイン勾配流としてのマルチヘッド変圧器アーキテクチャ
- Authors: Alex Massucco, Leonardo Del Grande, Marcello Carioni, Christoff Brune, Carola-Bibiane Schönlieb,
- Abstract要約: マルチヘッドトランスアーキテクチャにおけるデータフローを時間依存勾配流として検討し、適切な相互作用エネルギーを求める。
摂動相互作用エネルギーと摂動相互作用エネルギーとの$$-convergenceを証明し、対応する勾配流の収束をもたらす。
これらの理論結果は、予測されたエネルギー散逸の同一性を確認し、自律的(オルンシュタイン-ウレンベック)と真に非自律的(振動重み)の双方における力学の挙動を明らかにする数値実験で補完する。
- 参考スコア(独自算出の注目度): 16.7218879608165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, transformer architectures have revolutionized the field of language processing, opening the door to previously unforeseen possibilities. However, from a theoretical point of view, the mathematical models proposed in the literature often lack direct contact with the actual architectures and depend on strong simplifying assumptions. In this paper, we reduce this gap by modelling the data flow in multi-headed transformer architectures as time-dependent gradient flows for a suitable interaction energy capturing the design of the attention mechanism. The explicit dependence on time allows us to consider different weights for each head and for each layer, without imposing constraints on the initialization method. Moreover, we prove that, under a suitable integrability assumption on the evolution of the weights, each element of the $ω$-limit set of the gradient flows is a stationary point of the interaction energy at a limiting weight distribution. Finally, we analyse the stability of the gradient flows considering perturbations of both the initial data and the weights. Specifically, on the one hand, we study the robustness of the proposed models with respect to noisy inputs, establishing a continuous dependence of the gradient flows on the initial data and uniqueness of the flows. On the other hand, we prove the $Γ$-convergence of the perturbed interaction energy to the unperturbed one, leading to the convergence of the corresponding gradient flows. We complement these theoretical results with numerical experiments that confirm the predicted energy-dissipation identity and clarify the asymptotic behavior of the dynamics in both the autonomous-like (Ornstein--Uhlenbeck) and the genuinely non-autonomous (oscillating-weights) regimes.
- Abstract(参考訳): 近年、トランスフォーマーアーキテクチャは言語処理の分野に革命をもたらし、これまで予想されていなかった可能性への扉を開いた。
しかし、理論的な観点からは、文献で提案された数学的モデルは、しばしば実際のアーキテクチャと直接の接触がなく、強い単純化された仮定に依存している。
本稿では,マルチヘッドトランスアーキテクチャにおけるデータフローを時間依存性の勾配流としてモデル化することにより,このギャップを小さくする。
時間への明示的な依存により、初期化法に制約を加えることなく、各頭部と各層について異なる重みを考慮できる。
さらに、重みの進化に関する適切な可積分性仮定の下では、勾配流の$ω$-極限集合の各要素が制限ウェイト分布における相互作用エネルギーの定常点であることが証明される。
最後に、初期データと重みの両方の摂動を考慮した勾配流の安定性を解析する。
具体的には,提案手法の雑音入力に対するロバスト性について検討し,初期データに対する勾配流の連続的依存性と流れの特異性について検討する。
一方、摂動相互作用エネルギーの摂動相互作用エネルギーに対する$$$-convergenceを証明し、対応する勾配流の収束をもたらす。
これらの理論結果は、予測されたエネルギー散逸の同一性を確認する数値実験で補完し、自律的(オルンシュタイン-ウレンベック)と真に非自律的(振動重み)の双方における力学の漸近挙動を明らかにする。
関連論文リスト
- Scaling at Chiral Clock Criticality via Entanglement Renormalization [0.12277343096128711]
我々は,Multiscale Entanglement Renormalization Ansatz (MERA) ネットワークを用いて,$mathbbZ_3$キラルクロックモデルについて検討する。
カイラルパラメータが増加するにつれて、Pottsデータからスムーズに変化する効果的なスケーリングデータ群が見つかる。
以上の結果から,MERAがカイラルクロックモデルの複雑な低エネルギー物理を捉える上での有効性を示した。
論文 参考訳(メタデータ) (2026-04-21T18:00:22Z) - Symmetry-protected topology and deconfined solitons in a multi-link $\mathbb{Z}_2$ gauge theory [45.88028371034407]
球殻の大円として視覚化できるリンクを持つ多重グラフ上で定義された$mathbbZ$格子ゲージ理論を研究する。
これは、ピエルズ不安定性に類似した現象の根底にある状態依存トンネル振幅につながることを示す。
行列積状態に基づいて詳細な解析を行うことで、電荷分解が電荷-摩擦化の結果生じることを証明できる。
論文 参考訳(メタデータ) (2026-03-02T22:59:25Z) - Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction [45.25461515976432]
画像再構成のための強力なパラダイムとして,DP(Plug-and-Play diffusion prior)フレームワークが登場した。
本稿では, バイアス・ハロシン化トレードオフを解消し, 収束を著しく加速した最先端の勾配を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2026-02-26T16:58:43Z) - Emergent Manifold Separability during Reasoning in Large Language Models [46.78826734548872]
Chain-of-Thoughtは大規模言語モデルの推論を大幅に改善する。
本研究では,潜伏表現の線形分離性について,探究訓練の難易度を考慮せずに定量化する。
論文 参考訳(メタデータ) (2026-02-23T20:36:17Z) - Backpropagation as Physical Relaxation: Exact Gradients in Finite Time [0.0]
ニューラルネットワークをトレーニングするための基礎アルゴリズムとして,'Dyadic Backproagation'がある。
物理力学系の有限時間緩和として現れることを示す。
層遷移の自然な時間スケールである単位ステップのオイラー離散化は、正確に2Lのステップで標準のバックプロパゲーションを復元する。
論文 参考訳(メタデータ) (2026-02-02T16:21:05Z) - Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds [0.5729426778193398]
幾何学的および統計的物理レンズを用いた深部変圧器言語モデルにおける多段階推論の出現について検討する。
我々は、フォワードパスを離散粗粒度写像として形式化し、安定な「概念盆地」の出現と、この再正規化のような力学の固定点を関連付ける。
結果として生じる低エントロピー状態は、スペクトルテール崩壊と、表現空間における過渡的で再利用可能なオブジェクトのような構造の形成によって特徴づけられる。
論文 参考訳(メタデータ) (2026-01-16T23:11:02Z) - HFNO: an interpretable data-driven decomposition strategy for turbulent flows [0.0]
乱流の低次モデリングに適した新しいFNOアーキテクチャを提案する。
提案したアーキテクチャは、波数ビンを並列に処理し、分散関係と非線形相互作用の近似を可能にする。
より複雑な力学系における提案モデルの評価を行った。
論文 参考訳(メタデータ) (2025-11-03T12:57:19Z) - Particle Dynamics for Latent-Variable Energy-Based Models [12.84928511163926]
潜時変動エネルギーベースモデル(LVEBM)は、観測されたデータと潜時変数の結合対に1つの正規化されたエネルギーを割り当てる。
我々は,潜伏勾配と関節勾配の分布に関するサドル問題として,最大様態訓練を再検討した。
我々は、KL分散とワッサーシュタイン2距離における崩壊率を用いて、標準の滑らかさと解離性仮定の下での存在と収束を証明した。
論文 参考訳(メタデータ) (2025-10-17T09:04:49Z) - TANGO: Time-Reversal Latent GraphODE for Multi-Agent Dynamical Systems [43.39754726042369]
連続グラフニューラルネットワークに基づく常微分方程式(GraphODE)により予測される前後の軌跡を整列するソフト制約として,単純かつ効果的な自己監督型正規化項を提案する。
時間反転対称性を効果的に課し、古典力学の下でより広い範囲の力学系にわたってより正確なモデル予測を可能にする。
様々な物理システムに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-10T08:52:16Z) - Initial Correlations in Open Quantum Systems: Constructing Linear
Dynamical Maps and Master Equations [62.997667081978825]
任意の所定の初期相関に対して、開系の作用素の空間上の線型動的写像を導入することができることを示す。
この構造が一般化されたリンドブラッド構造を持つ線形時間局所量子マスター方程式に導かれることを実証する。
論文 参考訳(メタデータ) (2022-10-24T13:43:04Z) - Probing eigenstate thermalization in quantum simulators via
fluctuation-dissipation relations [77.34726150561087]
固有状態熱化仮説(ETH)は、閉量子多体系の平衡へのアプローチの普遍的なメカニズムを提供する。
本稿では, ゆらぎ・散逸関係の出現を観測し, 量子シミュレータのフルETHを探索する理論に依存しない経路を提案する。
我々の研究は、量子シミュレータにおける熱化を特徴づける理論に依存しない方法を示し、凝縮物質ポンプ-プローブ実験をシミュレーションする方法を舗装する。
論文 参考訳(メタデータ) (2020-07-20T18:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。