論文の概要: Efficient High-Accuracy PDEs Solver with the Linear Attention Neural Operator
- arxiv url: http://arxiv.org/abs/2510.16816v1
- Date: Sun, 19 Oct 2025 13:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.163839
- Title: Efficient High-Accuracy PDEs Solver with the Linear Attention Neural Operator
- Title(参考訳): リニアアテンションニューラル演算子を用いた高精度PDE解法
- Authors: Ming Zhong, Zhenya Yan,
- Abstract要約: 我々は新しいタイプのニューラル演算子、リニアアテンションニューラル演算子(LANO)を提案する。
LANOはエージェントベースの機構を通じて注意を再構築することでスケーラビリティと高精度の両立を実現している。
実証的には、LANOは、スライスベースのソフトマックスアテンションを備えたTransolverを含む最先端のニューラルネットワークPDEソルバを超越している。
- 参考スコア(独自算出の注目度): 2.1595890347557756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural operators offer a powerful data-driven framework for learning mappings between function spaces, in which the transformer-based neural operator architecture faces a fundamental scalability-accuracy trade-off: softmax attention provides excellent fidelity but incurs quadratic complexity $\mathcal{O}(N^2 d)$ in the number of mesh points $N$ and hidden dimension $d$, while linear attention variants reduce cost to $\mathcal{O}(N d^2)$ but often suffer significant accuracy degradation. To address the aforementioned challenge, in this paper, we present a novel type of neural operators, Linear Attention Neural Operator (LANO), which achieves both scalability and high accuracy by reformulating attention through an agent-based mechanism. LANO resolves this dilemma by introducing a compact set of $M$ agent tokens $(M \ll N)$ that mediate global interactions among $N$ tokens. This agent attention mechanism yields an operator layer with linear complexity $\mathcal{O}(MN d)$ while preserving the expressive power of softmax attention. Theoretically, we demonstrate the universal approximation property, thereby demonstrating improved conditioning and stability properties. Empirically, LANO surpasses current state-of-the-art neural PDE solvers, including Transolver with slice-based softmax attention, achieving average $19.5\%$ accuracy improvement across standard benchmarks. By bridging the gap between linear complexity and softmax-level performance, LANO establishes a scalable, high-accuracy foundation for scientific machine learning applications.
- Abstract(参考訳): 神経オペレーターは関数空間間のマッピングを学習するための強力なデータ駆動フレームワークを提供する。トランスフォーマーベースのニューラルオペレーターアーキテクチャは、基本的なスケーラビリティと精度のトレードオフに直面している。 ソフトマックスアテンションは優れた忠実さを提供するが、二次的な複雑さを引き起こす $\mathcal{O}(N^2 d)$ メッシュポイント数$N$ と隠れ次元 $d$ において、線形アテンションはコストを$\mathcal{O}(N d^2)$ に削減するが、しばしば大きな精度低下を被る。
この課題に対処するために,本稿では,エージェントベース機構を用いて注意を再構築することにより,スケーラビリティと高精度の両立を実現する,新しいタイプのニューラル演算子であるLinear Attention Neural Operator(LANO)を提案する。
LANOはこのジレンマを解決するために、$M$エージェントトークンのコンパクトなセット$(M \ll N)$を導入し、$N$トークン間のグローバルな相互作用を仲介する。
このエージェントアテンション機構は、ソフトマックスアテンションの表現力を維持しながら、線形複雑性$\mathcal{O}(MN d)$の演算子層を生成する。
理論的には、普遍近似特性を実証し、改良された条件付けおよび安定性特性を示す。
実証的には、LANOは現在の最先端のニューラルネットワークPDEソルバを超えており、Transolverはスライスベースのソフトマックスの注意を払っており、標準ベンチマークの平均19.5\%の精度向上を実現している。
線形複雑性とソフトマックスレベルのパフォーマンスのギャップを埋めることによって、LANOは科学的機械学習アプリケーションのためのスケーラブルで高精度な基盤を確立する。
関連論文リスト
- Redefining Neural Operators in $d+1$ Dimensions [16.36239488071517]
我々は、Schr"オーディンジェライゼーション法に基づいて、新しい$d+1$次元領域上でニューラル作用素を再定義する。
このフレームワーク内では、$d+1$の次元展開と整合したSchr"odingerized Kernel Neural Operator (SKNO)を実装している。
実験では、SKNO における $d+1$ 次元の進化的設計は、他のベースラインよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-17T00:15:00Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - TensorGRaD: Tensor Gradient Robust Decomposition for Memory-Efficient Neural Operator Training [91.8932638236073]
textbfTensorGRaDは,重み付けに伴うメモリ問題に直接対処する新しい手法である。
SparseGRaD は総メモリ使用量を 50% 以上削減し,同時に精度も向上することを示した。
論文 参考訳(メタデータ) (2025-01-04T20:51:51Z) - Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions [26.025283259518936]
Rodimusは、新しいタイプの注目ベースの大規模言語モデル(LLM)である。
Rodimusは、線形アテンションベースで純粋にリカレントなフレームワーク内で、データ依存のテンプレート選択機構を採用している。
Rodimus$+$は、Rodimusと革新的なSliding Window Shared-Key Attention (SW-SKA)をハイブリッドアプローチで組み合わせている。
実験の結果,1兆トークンでトレーニングしたRodimus$+$-1.6Bは,より多くのトークンでトレーニングしたモデルに対して,より優れたダウンストリーム性能を実現することがわかった。
論文 参考訳(メタデータ) (2024-10-09T06:22:36Z) - Deep Tensor Network [9.910562011343009]
我々は、テンソル代数の表現力とニューラルネットワーク設計を統一することで、注意を再構築する新しいアーキテクチャフレームワークであるDeep Networkを紹介する。
我々のアプローチは、従来のドット積の注意とその後の線形時間近似を超越して、高次統計依存を捉える。
論文 参考訳(メタデータ) (2023-11-18T14:41:33Z) - MgNO: Efficient Parameterization of Linear Operators via Multigrid [4.096453902709292]
我々は、ニューロン間の線形演算子をパラメータ化するために多重格子構造を利用するMgNOを紹介する。
MgNOは、他のCNNベースのモデルと比べてトレーニングの容易さが優れている。
論文 参考訳(メタデータ) (2023-10-16T13:01:35Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Monte Carlo Neural PDE Solver for Learning PDEs via Probabilistic Representation [59.45669299295436]
教師なしニューラルソルバのトレーニングのためのモンテカルロPDEソルバを提案する。
我々は、マクロ現象をランダム粒子のアンサンブルとみなすPDEの確率的表現を用いる。
対流拡散, アレン・カーン, ナヴィエ・ストークス方程式に関する実験により, 精度と効率が著しく向上した。
論文 参考訳(メタデータ) (2023-02-10T08:05:19Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。