論文の概要: Continuous-Time Attention: PDE-Guided Mechanisms for Long-Sequence Transformers
- arxiv url: http://arxiv.org/abs/2505.20666v1
- Date: Tue, 27 May 2025 03:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.381795
- Title: Continuous-Time Attention: PDE-Guided Mechanisms for Long-Sequence Transformers
- Title(参考訳): 連続時間注意:長周期変圧器のPDE誘導機構
- Authors: Yukun Zhang, Xueqing Zhou,
- Abstract要約: 本研究では,変換器の注意機構に偏微分方程式(PDE)を注入する新しいフレームワークであるContinuous_Time Attentionを提案する。
PDE_based attention to improve optimization landscapes and enhances gradient flow。
本研究は, 連続時間力学と大域コヒーレンスによる注意機構の強化を目的としたPDE_ベース定式化の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 3.2266392324513267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel framework, Continuous_Time Attention, which infuses partial differential equations (PDEs) into the Transformer's attention mechanism to address the challenges of extremely long input sequences. Instead of relying solely on a static attention matrix, we allow attention weights to evolve over a pseudo_time dimension via diffusion, wave, or reaction_diffusion dynamics. This mechanism systematically smooths local noise, enhances long_range dependencies, and stabilizes gradient flow. Theoretically, our analysis shows that PDE_based attention leads to better optimization landscapes and polynomial rather than exponential decay of distant interactions. Empirically, we benchmark our method on diverse experiments_demonstrating consistent gains over both standard and specialized long sequence Transformer variants. Our findings highlight the potential of PDE_based formulations to enrich attention mechanisms with continuous_time dynamics and global coherence.
- Abstract(参考訳): 非常に長い入力シーケンスの課題に対処するため、変換器の注意機構に偏微分方程式(PDE)を注入する新しいフレームワークであるContinuous_Time Attentionを提案する。
静的な注意行列にのみ依存するのではなく、拡散、波動、リアクション_diffusionのダイナミクスを介して、疑似_time次元上で注意重みを進化させることができる。
この機構は局所雑音を系統的に平滑化し、長距離依存性を高め、勾配流を安定化させる。
理論的には、PDE_based attentionは、遠距離相互作用の指数的減衰よりも、ランドスケープと多項式の最適化に繋がることを示す。
実験的な手法として,標準および特殊長周期トランスフォーマーの両変種に対して一貫したゲインを実証する多種多様な実験についてベンチマークを行った。
本研究は, 連続時間力学と大域コヒーレンスによる注意機構の強化を目的としたPDE_ベース定式化の可能性を明らかにするものである。
関連論文リスト
- A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。
我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文 参考訳(メタデータ) (2025-01-30T13:04:54Z) - Sequence Complementor: Complementing Transformers For Time Series Forecasting with Learnable Sequences [5.244482076690776]
シーケンス表現の表現能力は、時間予測においてTransformerのパフォーマンスに影響を与える重要な要因であることがわかった。
本稿では,シークエンス・コンプリメンタを用いた新しいアテンション機構を提案し,情報理論の観点から実現可能であることを示す。
論文 参考訳(メタデータ) (2025-01-06T03:08:39Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
本研究では,Long-Skip-Connections (LSC) で拡張された新しい DiT バリアントである Skip-DiT を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - EgPDE-Net: Building Continuous Neural Networks for Time Series
Prediction with Exogenous Variables [22.145726318053526]
現在の連続法では、変数間の系列間相関と時間依存性はめったに考慮されない。
未知のPDEシステムを学習するための任意のステップ予測のための連続時間モデルを提案する。
論文 参考訳(メタデータ) (2022-08-03T08:34:31Z) - Learning to Accelerate Partial Differential Equations via Latent Global
Evolution [64.72624347511498]
The Latent Evolution of PDEs (LE-PDE) is a simple, fast and scalable method to accelerate the simulation and inverse optimization of PDEs。
我々は,このような潜在力学を効果的に学習し,長期的安定性を確保するために,新たな学習目標を導入する。
更新対象の寸法が最大128倍、速度が最大15倍向上し、競争精度が向上した。
論文 参考訳(メタデータ) (2022-06-15T17:31:24Z) - Dynamics of Ultracold Bosons in Artificial Gauge Fields: Angular
Momentum, Fragmentation, and the Variance of Entropy [0.0]
人工ゲージ場に突然切り替えることによって引き起こされる2次元相互作用する超低温ボソンのダイナミクスを考察する。
本研究では, 角運動量, 断片化, エントロピーのエントロピー, あるいは単発画像のエントロピーのばらつきを観測することにより, 創発的ダイナミクスを解析する。
論文 参考訳(メタデータ) (2020-12-17T19:00:03Z) - Stochastically forced ensemble dynamic mode decomposition for
forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。
固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。
電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文 参考訳(メタデータ) (2020-10-08T20:25:52Z) - Optimization with Momentum: Dynamical, Control-Theoretic, and Symplectic
Perspectives [97.16266088683061]
この論文は、運動量に基づく最適化アルゴリズムにおいてシンプレクティックな離散化スキームが重要であることを厳格に証明している。
これは加速収束を示すアルゴリズムの特性を提供する。
論文 参考訳(メタデータ) (2020-02-28T00:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。