論文の概要: Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics
- arxiv url: http://arxiv.org/abs/2512.12602v1
- Date: Sun, 14 Dec 2025 08:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.34
- Title: Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics
- Title(参考訳): エラーのない線形注意は自由ランチである:連続時間ダイナミクスによる厳密な解法
- Authors: Jingdi Lei, Di Zhang, Soujanya Poria,
- Abstract要約: 数値的に安定な完全並列性とデルタ則の一般化された定式化であるEFLA(Error-Free Linear Attention)を導入する。
我々の研究は、高忠実でスケーラブルな線形時間アテンションモデルを構築するための新しい理論基盤を提供する。
- 参考スコア(独自算出の注目度): 41.656176667732616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear-time attention and State Space Models (SSMs) promise to solve the quadratic cost bottleneck in long-context language models employing softmax attention. We introduce Error-Free Linear Attention (EFLA), a numerically stable, fully parallelism and generalized formulation of the delta rule. Specifically, we formulate the online learning update as a continuous-time dynamical system and prove that its exact solution is not only attainable but also computable in linear time with full parallelism. By leveraging the rank-1 structure of the dynamics matrix, we directly derive the exact closed-form solution effectively corresponding to the infinite-order Runge-Kutta method. This attention mechanism is theoretically free from error accumulation, perfectly capturing the continuous dynamics while preserving the linear-time complexity. Through an extensive suite of experiments, we show that EFLA enables robust performance in noisy environments, achieving lower language modeling perplexity and superior downstream benchmark performance than DeltaNet without introducing additional parameters. Our work provides a new theoretical foundation for building high-fidelity, scalable linear-time attention models.
- Abstract(参考訳): 線形時間アテンションと状態空間モデル(SSM)は、ソフトマックスアテンションを用いた長文言語モデルの二次的コストボトルネックを解決することを約束する。
数値的に安定な完全並列性とデルタ則の一般化された定式化であるEFLA(Error-Free Linear Attention)を導入する。
具体的には、オンライン学習更新を連続時間力学系として定式化し、その正確な解が達成可能であるだけでなく、完全な並列性を持つ線形時間でも計算可能であることを証明する。
力学行列のランク1構造を利用することで、無限次ルンゲ・クッタ法に対応する正確な閉形式解を直接導出する。
この注意機構は理論的にはエラーの蓄積を伴わず、線形時間複雑性を保ちながら連続的なダイナミクスを完璧に捉えている。
大規模な実験を通じて、EFLAはノイズの多い環境での堅牢なパフォーマンスを実現し、言語モデリングの難易度を低くし、パラメータを追加することなくDeltaNetよりも優れたダウンストリームベンチマーク性能を実現していることを示す。
我々の研究は、高忠実でスケーラブルな線形時間アテンションモデルを構築するための新しい理論基盤を提供する。
関連論文リスト
- RRAEDy: Adaptive Latent Linearization of Nonlinear Dynamical Systems [2.4662459762262894]
本稿では,潜在空間における低次元力学の学習モデルであるRRAEDyを紹介する。
我々はRRAEDyが正確かつ堅牢な予測を実現することを示す。
私たちのコードはオープンソースで、https://github.com/JadM133/RRAEDy.comで公開しています。
論文 参考訳(メタデータ) (2025-12-08T13:23:12Z) - Operator Models for Continuous-Time Offline Reinforcement Learning [4.808981008878068]
環境との直接の相互作用は、しばしば安全でないか非現実的であり、歴史的データからオフラインの強化学習を動機付けている。
ハミルトン・ヤコビ・ベルマン方程式に強化学習をリンクし、演算子理論のアルゴリズムを提案することでこの問題に対処する。
具体的には、再生カーネルヒルベルト空間で学習した制御拡散過程の無限小生成という観点から世界モデルを表現している。
論文 参考訳(メタデータ) (2025-11-13T14:58:30Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [19.484676783876306]
拡散モデルは生成モデリングの強力なツールとして登場してきた。
微調整拡散モデルのための制御フレームワークを提案する。
PI-FTは線形速度で大域収束することを示す。
論文 参考訳(メタデータ) (2024-12-24T04:55:46Z) - Amortized Control of Continuous State Space Feynman-Kac Model for Irregular Time Series [14.400596021890863]
医療、気候、経済などの現実世界のデータセットは、しばしば不規則な時系列として収集される。
本稿では,連続状態空間モデル (ACSSM) を時系列の連続的動的モデリングに用いるためのアモータイズ制御を提案する。
論文 参考訳(メタデータ) (2024-10-08T01:27:46Z) - Oscillatory State-Space Models [61.923849241099184]
長いシーケンスを効率的に学習するための線形状態空間モデル(LinOSS)を提案する。
高速な連想並列スキャンを用いて時間とともに統合された安定な離散化により、提案した状態空間モデルが得られる。
我々はLinOSSが普遍であること、すなわち時間変化関数間の連続および因果作用素写像を近似できることを示す。
論文 参考訳(メタデータ) (2024-10-04T22:00:13Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。