論文の概要: PDE-Transformer: A Continuous Dynamical Systems Approach to Sequence Modeling
- arxiv url: http://arxiv.org/abs/2510.03272v1
- Date: Sat, 27 Sep 2025 08:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.630556
- Title: PDE-Transformer: A Continuous Dynamical Systems Approach to Sequence Modeling
- Title(参考訳): PDE-Transformer:シーケンスモデリングのための連続動的システムアプローチ
- Authors: Yukun Zhang, Xueqing Zhou,
- Abstract要約: 本稿では,変圧器の離散層構造をPDE(Master partial Differential Equation)が支配する連続の力学系として再認識する新しい解析フレームワークを提案する。
PDEシミュレータと標準トランスフォーマーを比較することで,本実験は本研究の中心的論文の説得力のある実証的証拠を提供する。
我々の発見は、数学的基本安定化器は、実際には、他の方法では強力だが本質的に不安定な連続系をテームするのに必要となる数学的基本安定化器であることを示している。
- 参考スコア(独自算出の注目度): 4.1812935375151925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has revolutionized artificial intelligence, yet a principled theoretical understanding of its internal mechanisms remains elusive. This paper introduces a novel analytical framework that reconceptualizes the Transformer's discrete, layered structure as a continuous spatiotemporal dynamical system governed by a master Partial Differential Equation (PDE). Within this paradigm, we map core architectural components to distinct mathematical operators: self-attention as a non-local interaction, the feed-forward network as a local reaction, and, critically, residual connections and layer normalization as indispensable stabilization mechanisms. We do not propose a new model, but rather employ the PDE system as a theoretical probe to analyze the mathematical necessity of these components. By comparing a standard Transformer with a PDE simulator that lacks explicit stabilizers, our experiments provide compelling empirical evidence for our central thesis. We demonstrate that without residual connections, the system suffers from catastrophic representational drift, while the absence of layer normalization leads to unstable, explosive training dynamics. Our findings reveal that these seemingly heuristic "tricks" are, in fact, fundamental mathematical stabilizers required to tame an otherwise powerful but inherently unstable continuous system. This work offers a first-principles explanation for the Transformer's design and establishes a new paradigm for analyzing deep neural networks through the lens of continuous dynamics.
- Abstract(参考訳): Transformerアーキテクチャは人工知能に革命をもたらしたが、その内部メカニズムに関する理論的な理解はいまだに解明されていない。
本稿では,変圧器の離散層構造をPDE(Master partial Differential Equation)が支配する連続時空間力学系として再認識する新しい解析枠組みを提案する。
このパラダイムでは、コアアーキテクチャコンポーネントを、非局所的な相互作用としての自己アテンション、局所的な反応としてのフィードフォワードネットワーク、そして重要なことに、残余接続と層正規化を必須の安定化機構として、別の数学的演算子にマップする。
我々は、新しいモデルを提案するのではなく、理論的なプローブとしてPDEシステムを用いて、これらのコンポーネントの数学的必要性を分析する。
PDEシミュレータと標準トランスフォーマーを比較することで,本実験は本研究の中心的論文の説得力のある実証的証拠を提供する。
残りの接続がなければ、システムは破滅的な表現の漂流に悩まされ、一方、層正規化の欠如は不安定で爆発的な訓練のダイナミクスをもたらす。
我々の発見によると、これらの「トリック」は、実際は、強力だが本質的に不安定な連続系をテームするために必要となる基本的な数学的安定器である。
この研究は、Transformerの設計に関する第一原理の説明を提供し、連続力学のレンズを通してディープニューラルネットワークを分析するための新しいパラダイムを確立する。
関連論文リスト
- Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Flow marching for a generative PDE foundation model [0.0]
本稿では,物理力学系における誤り蓄積の解析によって動機付けられたフローマッチングを用いて,ニューラル演算子の学習をブリッジするアルゴリズムであるフローマーチングを提案する。
また,物理制約付き変分オートエンコーダ(P2E)を導入し,物理軌道をコンパクトな潜在空間に埋め込む。
異なる12種類のPDEファミリーおよびP2EとFMTのトレインスイートの2.5Mトラジェクトリを複数スケールでキュレートする。
論文 参考訳(メタデータ) (2025-09-23T04:00:41Z) - Information-Theoretic Bounds and Task-Centric Learning Complexity for Real-World Dynamic Nonlinear Systems [0.6875312133832079]
動的非線形系は静的および動的効果の結合による歪みを示す。
本稿では, 構造化分解, 分散解析, タスク中心の複雑性境界に基づく理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-08T12:08:02Z) - PowerGrow: Feasible Co-Growth of Structures and Dynamics for Power Grid Synthesis [75.14189839277928]
本稿では,運用効率を維持しながら計算オーバーヘッドを大幅に削減する,共同生成フレームワークPowerGrowを提案する。
ベンチマーク設定による実験では、PowerGrowはフィデリティと多様性において、事前の拡散モデルよりも優れていた。
これは、運用上有効で現実的な電力グリッドシナリオを生成する能力を示している。
論文 参考訳(メタデータ) (2025-08-29T01:47:27Z) - Continuous-Time Attention: PDE-Guided Mechanisms for Long-Sequence Transformers [3.2266392324513267]
本研究では,変換器の注意機構に偏微分方程式(PDE)を注入する新しいフレームワークであるContinuous_Time Attentionを提案する。
PDE_based attention to improve optimization landscapes and enhances gradient flow。
本研究は, 連続時間力学と大域コヒーレンスによる注意機構の強化を目的としたPDE_ベース定式化の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-27T03:30:10Z) - Generative System Dynamics in Recurrent Neural Networks [56.958984970518564]
リカレントニューラルネットワーク(RNN)の連続時間ダイナミクスについて検討する。
線形および非線形構成の両方において安定な極限サイクルを実現するためには,スキュー対称性の重み行列が基本であることを示す。
数値シミュレーションは、非線形活性化関数が極限周期を維持するだけでなく、システム統合プロセスの数値安定性を高めることを示す。
論文 参考訳(メタデータ) (2025-04-16T10:39:43Z) - Flowing Through Layers: A Continuous Dynamical Systems Perspective on Transformers [0.0]
本稿では,変圧器の標準離散更新規則を連続力学系の前方オイラー離散化として自然に解釈できることを示す。
我々のTransformer Flow Approximation Theoremは、標準的なリプシッツ連続性仮定の下で、トークン表現が、層の数が増えるにつれてODEのユニークな解に一様収束することを示した。
論文 参考訳(メタデータ) (2025-02-08T18:11:40Z) - Advancing Generalization in PINNs through Latent-Space Representations [71.86401914779019]
物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)によって支配される力学系のモデリングにおいて大きな進歩を遂げた。
本稿では,多種多様なPDE構成を効果的に一般化する物理インフォームドニューラルPDE解法PIDOを提案する。
PIDOは1次元合成方程式と2次元ナビエ・ストークス方程式を含む様々なベンチマークで検証する。
論文 参考訳(メタデータ) (2024-11-28T13:16:20Z) - Tight Stability, Convergence, and Robustness Bounds for Predictive Coding Networks [60.3634789164648]
予測符号化(PC)のようなエネルギーベースの学習アルゴリズムは、機械学習コミュニティにおいて大きな注目を集めている。
動的システム理論のレンズを用いて,PCの安定性,堅牢性,収束性を厳密に解析する。
論文 参考訳(メタデータ) (2024-10-07T02:57:26Z) - Understanding Transformer Architecture through Continuous Dynamics: A Partial Differential Equation Perspective [4.1812935375151925]
本稿では,変圧器の離散層構造をPDE(Master partial Differential Equation)が支配する連続の力学系として再認識する新しい解析フレームワークを提案する。
PDEシミュレータと標準トランスフォーマーを比較することで,本実験は本研究の中心的論文の説得力のある実証的証拠を提供する。
我々の発見は、数学的基本安定化器は、実際には、他の方法では強力だが本質的に不安定な連続系をテームするのに必要となる数学的基本安定化器であることを示している。
論文 参考訳(メタデータ) (2024-08-18T16:16:57Z) - AROMA: Preserving Spatial Structure for Latent PDE Modeling with Local Neural Fields [14.219495227765671]
本稿では、局所的なニューラルネットワークを用いた偏微分方程式(PDE)のモデリングを強化するためのフレームワークであるAROMAを提案する。
我々のフレキシブルエンコーダ・デコーダアーキテクチャは、様々なデータタイプから空間物理場のスムーズな遅延表現を得ることができる。
拡散型定式化を用いることで、従来のMSEトレーニングと比較して安定性が向上し、ロールアウトが長くなる。
論文 参考訳(メタデータ) (2024-06-04T10:12:09Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Learning to Accelerate Partial Differential Equations via Latent Global
Evolution [64.72624347511498]
The Latent Evolution of PDEs (LE-PDE) is a simple, fast and scalable method to accelerate the simulation and inverse optimization of PDEs。
我々は,このような潜在力学を効果的に学習し,長期的安定性を確保するために,新たな学習目標を導入する。
更新対象の寸法が最大128倍、速度が最大15倍向上し、競争精度が向上した。
論文 参考訳(メタデータ) (2022-06-15T17:31:24Z) - Model Reduction of Swing Equations with Physics Informed PDE [3.3263205689999444]
この原稿は、トランスミッションレベル電力系統における過渡的ダイナミクスを捉えるために、堅牢で効率的なモデル削減手法を構築するための最初のステップである。
本研究では,各離散係数の空間的畳み込み過程から抽出したPDE係数とソース項を適切に粗い粒度にすると,結果のPDEは元のスイングダイナミクスを忠実かつ効率的に再現することを示す。
論文 参考訳(メタデータ) (2021-10-26T22:46:20Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z) - Euclideanizing Flows: Diffeomorphic Reduction for Learning Stable
Dynamical Systems [74.80320120264459]
本研究では、限られた数の人間の実演からそのような動きを学ぶためのアプローチを提案する。
複素運動は安定な力学系のロールアウトとして符号化される。
このアプローチの有効性は、確立されたベンチマーク上での検証と、現実世界のロボットシステム上で収集されたデモによって実証される。
論文 参考訳(メタデータ) (2020-05-27T03:51:57Z) - On dissipative symplectic integration with applications to
gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。
我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文 参考訳(メタデータ) (2020-04-15T00:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。