論文の概要: PDE-Transformer: A Continuous Dynamical Systems Approach to Sequence Modeling
- arxiv url: http://arxiv.org/abs/2510.03272v2
- Date: Sun, 12 Oct 2025 14:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:09.739233
- Title: PDE-Transformer: A Continuous Dynamical Systems Approach to Sequence Modeling
- Title(参考訳): PDE-Transformer:シーケンスモデリングのための連続動的システムアプローチ
- Authors: Yukun Zhang, Xueqing Zhou,
- Abstract要約: 連続反応拡散系の数値離散化としてトランスフォーマーの前方通過をキャストするシーケンスモデリングパラダイムであるPDE-Transformerを提案する。
この枠組みでは、非局所積分項が自己アテンションをモデル化する偏微分方程式の下でトークン埋め込みが進化する。
線形時間複雑性を持つ特徴空間の局所的滑らかさを強制する適応型PDE拡散層を設計する。
- 参考スコア(独自算出の注目度): 4.1812935375151925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose PDE-Transformer, a novel sequence modeling paradigm that casts the forward pass of a Transformer as the numerical discretization of a continuous reaction-diffusion system derived from a variational energy functional. In our framework, token embeddings evolve under a partial differential equation whose nonlocal integral term models self-attention, local reaction term models feed-forward layers, diffusion term encodes positional smoothing, and a stability control term corresponds to layer normalization. From this unifying perspective, we design an Adaptive PDE Diffusion Layer-an efficient, learnable finite-difference stencil that enforces local smoothness in feature space with linear time complexity and complements self-attention's global routing. Through a systematic theoretical analysis based on four pillars:stability, diffusion geometry, multi-scale dynamics, and component coupling, we derive principled guidelines for integrating the PDE layer at seven candidate points in the Transformer. Empirically, on the Long Range Arena benchmark, placing the layer immediately after embedding yields a 4.1 pp average accuracy gain over a strong baseline, and an adaptive multi-scale variant delivers further improvements. Our work thus offers a principled, lightweight mechanism to bolster long-range dependency modeling by harmonizing continuous PDE smoothing with discrete self-attention.
- Abstract(参考訳): PDE-Transformerは,変分エネルギー関数から導かれる連続反応拡散系の数値離散化としてトランスフォーマーの前方通過をキャストする,新しいシーケンスモデリングパラダイムである。
本フレームワークでは,非局所積分項モデルが自己アテンション,局所反応項モデルがフィードフォワード層,拡散項が位置平滑化を符号化し,安定性制御項が層正規化に対応する部分微分方程式の下で,トークン埋め込みが発展する。
この統合の観点から,線形時間複雑性を持つ特徴空間の局所的滑らかさを強制し,自己注意のグローバルなルーティングを補完する適応型PDE拡散層(Adaptive PDE Diffusion Layer)を設計する。
安定度,拡散幾何学,マルチスケールダイナミクス,コンポーネント結合の4つの柱に基づく系統的理論的解析により,PDE層をトランスフォーマーの7つの候補点に統合するための原則的ガイドラインを導出した。
実験的に、Long Range Arenaベンチマークでは、埋め込み直後に層を配置すると、強いベースラインよりも平均4.1ppの精度が向上し、適応的なマルチスケールのバリエーションがさらなる改善をもたらす。
我々の研究は、継続的PDE平滑化を個別の自己意図と調和させることにより、長距離依存性モデリングを促進するための原則化された軽量なメカニズムを提供する。
関連論文リスト
- Information-Theoretic Bounds and Task-Centric Learning Complexity for Real-World Dynamic Nonlinear Systems [0.6875312133832079]
動的非線形系は静的および動的効果の結合による歪みを示す。
本稿では, 構造化分解, 分散解析, タスク中心の複雑性境界に基づく理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-08T12:08:02Z) - PowerGrow: Feasible Co-Growth of Structures and Dynamics for Power Grid Synthesis [75.14189839277928]
本稿では,運用効率を維持しながら計算オーバーヘッドを大幅に削減する,共同生成フレームワークPowerGrowを提案する。
ベンチマーク設定による実験では、PowerGrowはフィデリティと多様性において、事前の拡散モデルよりも優れていた。
これは、運用上有効で現実的な電力グリッドシナリオを生成する能力を示している。
論文 参考訳(メタデータ) (2025-08-29T01:47:27Z) - Generative System Dynamics in Recurrent Neural Networks [56.958984970518564]
リカレントニューラルネットワーク(RNN)の連続時間ダイナミクスについて検討する。
線形および非線形構成の両方において安定な極限サイクルを実現するためには,スキュー対称性の重み行列が基本であることを示す。
数値シミュレーションは、非線形活性化関数が極限周期を維持するだけでなく、システム統合プロセスの数値安定性を高めることを示す。
論文 参考訳(メタデータ) (2025-04-16T10:39:43Z) - Flowing Through Layers: A Continuous Dynamical Systems Perspective on Transformers [0.0]
本稿では,変圧器の標準離散更新規則を連続力学系の前方オイラー離散化として自然に解釈できることを示す。
我々のTransformer Flow Approximation Theoremは、標準的なリプシッツ連続性仮定の下で、トークン表現が、層の数が増えるにつれてODEのユニークな解に一様収束することを示した。
論文 参考訳(メタデータ) (2025-02-08T18:11:40Z) - Tight Stability, Convergence, and Robustness Bounds for Predictive Coding Networks [60.3634789164648]
予測符号化(PC)のようなエネルギーベースの学習アルゴリズムは、機械学習コミュニティにおいて大きな注目を集めている。
動的システム理論のレンズを用いて,PCの安定性,堅牢性,収束性を厳密に解析する。
論文 参考訳(メタデータ) (2024-10-07T02:57:26Z) - Understanding Transformer Architecture through Continuous Dynamics: A Partial Differential Equation Perspective [4.1812935375151925]
本稿では,変圧器の離散層構造をPDE(Master partial Differential Equation)が支配する連続の力学系として再認識する新しい解析フレームワークを提案する。
PDEシミュレータと標準トランスフォーマーを比較することで,本実験は本研究の中心的論文の説得力のある実証的証拠を提供する。
我々の発見は、数学的基本安定化器は、実際には、他の方法では強力だが本質的に不安定な連続系をテームするのに必要となる数学的基本安定化器であることを示している。
論文 参考訳(メタデータ) (2024-08-18T16:16:57Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z) - Euclideanizing Flows: Diffeomorphic Reduction for Learning Stable
Dynamical Systems [74.80320120264459]
本研究では、限られた数の人間の実演からそのような動きを学ぶためのアプローチを提案する。
複素運動は安定な力学系のロールアウトとして符号化される。
このアプローチの有効性は、確立されたベンチマーク上での検証と、現実世界のロボットシステム上で収集されたデモによって実証される。
論文 参考訳(メタデータ) (2020-05-27T03:51:57Z) - On dissipative symplectic integration with applications to
gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。
我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文 参考訳(メタデータ) (2020-04-15T00:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。