論文の概要: NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training
- arxiv url: http://arxiv.org/abs/2602.22059v1
- Date: Wed, 25 Feb 2026 16:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.898435
- Title: NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training
- Title(参考訳): NESTOR: 大規模PDE事前トレーニングのためのNested MOEベースのニューラル演算子
- Authors: Dengdi Sun, Xiaoya Zhou, Xiao Wang, Hao Si, Wanli Lyu, Jin Tang, Bin Luo,
- Abstract要約: ネストしたMixture-of-Experts(MoE)フレームワークに基づく大規模PDE事前学習ニューラルオペレータを提案する。
我々のモデルは与えられた入力に対して最も適した専門家ネットワークを選択的に活性化することができ、一般化と転送性を高めることができる。
- 参考スコア(独自算出の注目度): 17.27120526151699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural operators have emerged as an efficient paradigm for solving PDEs, overcoming the limitations of traditional numerical methods and significantly improving computational efficiency. However, due to the diversity and complexity of PDE systems, existing neural operators typically rely on a single network architecture, which limits their capacity to fully capture heterogeneous features and complex system dependencies. This constraint poses a bottleneck for large-scale PDE pre-training based on neural operators. To address these challenges, we propose a large-scale PDE pre-trained neural operator based on a nested Mixture-of-Experts (MoE) framework. In particular, the image-level MoE is designed to capture global dependencies, while the token-level Sub-MoE focuses on local dependencies. Our model can selectively activate the most suitable expert networks for a given input, thereby enhancing generalization and transferability. We conduct large-scale pre-training on twelve PDE datasets from diverse sources and successfully transfer the model to downstream tasks. Extensive experiments demonstrate the effectiveness of our approach.
- Abstract(参考訳): ニューラル作用素はPDEを解くための効率的なパラダイムとして登場し、従来の数値法の限界を克服し、計算効率を大幅に改善した。
しかしながら、PDEシステムの多様性と複雑さのため、既存のニューラルネットワークオペレータは通常、単一ネットワークアーキテクチャに依存しており、不均一な機能や複雑なシステム依存関係を完全にキャプチャする能力に制限がある。
この制約は、ニューラル演算子に基づく大規模PDE事前トレーニングのボトルネックとなる。
これらの課題に対処するために,ネストしたMixture-of-Experts(MoE)フレームワークに基づく大規模PDE事前学習ニューラル演算子を提案する。
特に、画像レベルのMoEはグローバルな依存関係をキャプチャするために設計されており、トークンレベルのSub-MoEはローカルな依存関係に焦点を当てている。
我々のモデルは与えられた入力に対して最も適した専門家ネットワークを選択的に活性化することができ、一般化と転送性を高めることができる。
多様なソースから12のPDEデータセット上で大規模な事前学習を行い、下流タスクへのモデル転送に成功した。
大規模な実験は、我々のアプローチの有効性を実証する。
関連論文リスト
- Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Latent Mamba Operator for Partial Differential Equations [8.410938527671341]
本稿では,潜時空間における状態空間モデル(SSM)の効率を,ニューラル演算子におけるカーネル積分定式化の表現力と統合する潜在マンバ演算子(LaMO)を紹介する。
LaMOは、ソリューション演算子近似における既存のベースラインよりも32.3%改善され、一貫したSOTA(State-of-the-art)性能を実現している。
論文 参考訳(メタデータ) (2025-05-25T11:51:31Z) - Paving the way for scientific foundation models: enhancing generalization and robustness in PDEs with constraint-aware pre-training [49.8035317670223]
科学基盤モデル(SciFM)は、様々な領域にまたがる伝達可能な表現を学習するための有望なツールとして登場しつつある。
本稿では,PDE残差を単独の学習信号として,あるいはデータ損失と組み合わせて事前学習に組み込むことにより,限定的あるいは実用的でないトレーニングデータに補償することを提案する。
以上の結果から, PDE制約による事前学習は, 解データのみを訓練したモデルよりも, 一般化を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-03-24T19:12:39Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - DeltaPhi: Physical States Residual Learning for Neural Operators in Data-Limited PDE Solving [54.605760146540234]
DeltaPhiは、PDE解決タスクを、直接入力出力マッピングの学習から、類似の物理的状態間の残差学習に変換する、新しい学習フレームワークである。
大規模な実験は、様々な物理的システムにまたがって一貫した、重要な改善を示す。
論文 参考訳(メタデータ) (2024-06-14T07:45:07Z) - Inducing Point Operator Transformer: A Flexible and Scalable
Architecture for Solving PDEs [7.152311859951986]
誘導点演算子変換器(IPOT)と呼ばれる注意モデルを導入する。
IPOTは、グローバルなインタラクションを計算的に効率的な方法でキャプチャしながら、任意の入力関数と出力クエリを処理するように設計されている。
IPOTは、プロセッサからのインプット/アウトプットの離散化を遅延ボトルネックより小さくすることで、任意の離散化を処理する柔軟性を提供する。
論文 参考訳(メタデータ) (2023-12-18T06:57:31Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Mitigating spectral bias for the multiscale operator learning [14.404769413313371]
本稿では階層的行列アプローチに着想を得た階層的注意神経演算子(HANO)を提案する。
HANOは、スケール適応的な相互作用範囲とレベル階層上の自己アテンションを備えており、制御可能な線形コストでネストされた特徴計算を可能にする。
我々の数値実験により,HANOは多スケール問題に対して最先端(SOTA)法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-19T21:09:29Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。