Fugu-MT 論文翻訳(概要): PDE-Transformer: A Continuous Dynamical Systems Approach to Sequence Modeling

論文の概要: PDE-Transformer: A Continuous Dynamical Systems Approach to Sequence Modeling

arxiv url: http://arxiv.org/abs/2510.03272v1
Date: Sat, 27 Sep 2025 08:58:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:58.630556
Title: PDE-Transformer: A Continuous Dynamical Systems Approach to Sequence Modeling
Title（参考訳）: PDE-Transformer:シーケンスモデリングのための連続動的システムアプローチ
Authors: Yukun Zhang, Xueqing Zhou,
Abstract要約: 本稿では,変圧器の離散層構造をPDE(Master partial Differential Equation)が支配する連続の力学系として再認識する新しい解析フレームワークを提案する。 PDEシミュレータと標準トランスフォーマーを比較することで,本実験は本研究の中心的論文の説得力のある実証的証拠を提供する。我々の発見は、数学的基本安定化器は、実際には、他の方法では強力だが本質的に不安定な連続系をテームするのに必要となる数学的基本安定化器であることを示している。
参考スコア（独自算出の注目度）: 4.1812935375151925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Transformer architecture has revolutionized artificial intelligence, yet a principled theoretical understanding of its internal mechanisms remains elusive. This paper introduces a novel analytical framework that reconceptualizes the Transformer's discrete, layered structure as a continuous spatiotemporal dynamical system governed by a master Partial Differential Equation (PDE). Within this paradigm, we map core architectural components to distinct mathematical operators: self-attention as a non-local interaction, the feed-forward network as a local reaction, and, critically, residual connections and layer normalization as indispensable stabilization mechanisms. We do not propose a new model, but rather employ the PDE system as a theoretical probe to analyze the mathematical necessity of these components. By comparing a standard Transformer with a PDE simulator that lacks explicit stabilizers, our experiments provide compelling empirical evidence for our central thesis. We demonstrate that without residual connections, the system suffers from catastrophic representational drift, while the absence of layer normalization leads to unstable, explosive training dynamics. Our findings reveal that these seemingly heuristic "tricks" are, in fact, fundamental mathematical stabilizers required to tame an otherwise powerful but inherently unstable continuous system. This work offers a first-principles explanation for the Transformer's design and establishes a new paradigm for analyzing deep neural networks through the lens of continuous dynamics.
Abstract（参考訳）: Transformerアーキテクチャは人工知能に革命をもたらしたが、その内部メカニズムに関する理論的な理解はいまだに解明されていない。本稿では,変圧器の離散層構造をPDE(Master partial Differential Equation)が支配する連続時空間力学系として再認識する新しい解析枠組みを提案する。このパラダイムでは、コアアーキテクチャコンポーネントを、非局所的な相互作用としての自己アテンション、局所的な反応としてのフィードフォワードネットワーク、そして重要なことに、残余接続と層正規化を必須の安定化機構として、別の数学的演算子にマップする。我々は、新しいモデルを提案するのではなく、理論的なプローブとしてPDEシステムを用いて、これらのコンポーネントの数学的必要性を分析する。 PDEシミュレータと標準トランスフォーマーを比較することで,本実験は本研究の中心的論文の説得力のある実証的証拠を提供する。残りの接続がなければ、システムは破滅的な表現の漂流に悩まされ、一方、層正規化の欠如は不安定で爆発的な訓練のダイナミクスをもたらす。我々の発見によると、これらの「トリック」は、実際は、強力だが本質的に不安定な連続系をテームするために必要となる基本的な数学的安定器である。この研究は、Transformerの設計に関する第一原理の説明を提供し、連続力学のレンズを通してディープニューラルネットワークを分析するための新しいパラダイムを確立する。

関連論文リスト

Information-Theoretic Bounds and Task-Centric Learning Complexity for Real-World Dynamic Nonlinear Systems [0.6875312133832079]
動的非線形系は静的および動的効果の結合による歪みを示す。本稿では, 構造化分解, 分散解析, タスク中心の複雑性境界に基づく理論的枠組みを提案する。
論文参考訳（メタデータ） (2025-09-08T12:08:02Z)
PowerGrow: Feasible Co-Growth of Structures and Dynamics for Power Grid Synthesis [75.14189839277928]
本稿では,運用効率を維持しながら計算オーバーヘッドを大幅に削減する,共同生成フレームワークPowerGrowを提案する。ベンチマーク設定による実験では、PowerGrowはフィデリティと多様性において、事前の拡散モデルよりも優れていた。これは、運用上有効で現実的な電力グリッドシナリオを生成する能力を示している。
論文参考訳（メタデータ） (2025-08-29T01:47:27Z)
Generative System Dynamics in Recurrent Neural Networks [56.958984970518564]
リカレントニューラルネットワーク(RNN)の連続時間ダイナミクスについて検討する。線形および非線形構成の両方において安定な極限サイクルを実現するためには,スキュー対称性の重み行列が基本であることを示す。数値シミュレーションは、非線形活性化関数が極限周期を維持するだけでなく、システム統合プロセスの数値安定性を高めることを示す。
論文参考訳（メタデータ） (2025-04-16T10:39:43Z)
Flowing Through Layers: A Continuous Dynamical Systems Perspective on Transformers [0.0]
本稿では,変圧器の標準離散更新規則を連続力学系の前方オイラー離散化として自然に解釈できることを示す。我々のTransformer Flow Approximation Theoremは、標準的なリプシッツ連続性仮定の下で、トークン表現が、層の数が増えるにつれてODEのユニークな解に一様収束することを示した。
論文参考訳（メタデータ） (2025-02-08T18:11:40Z)
Tight Stability, Convergence, and Robustness Bounds for Predictive Coding Networks [60.3634789164648]
予測符号化(PC)のようなエネルギーベースの学習アルゴリズムは、機械学習コミュニティにおいて大きな注目を集めている。動的システム理論のレンズを用いて,PCの安定性,堅牢性,収束性を厳密に解析する。
論文参考訳（メタデータ） (2024-10-07T02:57:26Z)
Understanding Transformer Architecture through Continuous Dynamics: A Partial Differential Equation Perspective [4.1812935375151925]
本稿では,変圧器の離散層構造をPDE(Master partial Differential Equation)が支配する連続の力学系として再認識する新しい解析フレームワークを提案する。 PDEシミュレータと標準トランスフォーマーを比較することで,本実験は本研究の中心的論文の説得力のある実証的証拠を提供する。我々の発見は、数学的基本安定化器は、実際には、他の方法では強力だが本質的に不安定な連続系をテームするのに必要となる数学的基本安定化器であることを示している。
論文参考訳（メタデータ） (2024-08-18T16:16:57Z)
Discovering Latent Causal Variables via Mechanism Sparsity: A New Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文参考訳（メタデータ） (2021-07-21T14:22:14Z)
Euclideanizing Flows: Diffeomorphic Reduction for Learning Stable Dynamical Systems [74.80320120264459]
本研究では、限られた数の人間の実演からそのような動きを学ぶためのアプローチを提案する。複素運動は安定な力学系のロールアウトとして符号化される。このアプローチの有効性は、確立されたベンチマーク上での検証と、現実世界のロボットシステム上で収集されたデモによって実証される。
論文参考訳（メタデータ） (2020-05-27T03:51:57Z)
On dissipative symplectic integration with applications to gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文参考訳（メタデータ） (2020-04-15T00:36:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。