論文の概要: Mixture-of-Experts Operator Transformer for Large-Scale PDE Pre-Training
- arxiv url: http://arxiv.org/abs/2510.25803v2
- Date: Fri, 31 Oct 2025 05:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 13:41:53.438667
- Title: Mixture-of-Experts Operator Transformer for Large-Scale PDE Pre-Training
- Title(参考訳): 大規模PDE前処理用Mixture-of-Experts Operator Transformer
- Authors: Hong Wang, Haiyang Xin, Jie Wang, Xuanze Yang, Fei Zha, Huanshuo Dong, Yan Jiang,
- Abstract要約: そこで本研究では,パラメータを効率よくスケールし,推論コストを制御したスパースアクティブアーキテクチャであるMixture-of-Experts Pre-training Operator Transformer(MoE-POT)を提案する。
具体的には、階層的にルータゲーティングネットワークを採用し、推論中に16のエキスパートネットワークから4つのルーティングされた専門家を動的に選択する。
我々は,90Mのアクティベートパラメータを持つモデルにおいて,120Mのアクティベートパラメータを持つ既存モデルと比較して最大40%のゼロショット誤差を低減できることを示す。
- 参考スコア(独自算出の注目度): 10.466410557724936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has proven effective in addressing data scarcity and performance limitations in solving PDE problems with neural operators. However, challenges remain due to the heterogeneity of PDE datasets in equation types, which leads to high errors in mixed training. Additionally, dense pre-training models that scale parameters by increasing network width or depth incur significant inference costs. To tackle these challenges, we propose a novel Mixture-of-Experts Pre-training Operator Transformer (MoE-POT), a sparse-activated architecture that scales parameters efficiently while controlling inference costs. Specifically, our model adopts a layer-wise router-gating network to dynamically select 4 routed experts from 16 expert networks during inference, enabling the model to focus on equation-specific features. Meanwhile, we also integrate 2 shared experts, aiming to capture common properties of PDE and reduce redundancy among routed experts. The final output is computed as the weighted average of the results from all activated experts. We pre-train models with parameters from 30M to 0.5B on 6 public PDE datasets. Our model with 90M activated parameters achieves up to a 40% reduction in zero-shot error compared with existing models with 120M activated parameters. Additionally, we conduct interpretability analysis, showing that dataset types can be inferred from router-gating network decisions, which validates the rationality and effectiveness of the MoE architecture.
- Abstract(参考訳): 事前トレーニングは、ニューラル演算子によるPDE問題の解決において、データの不足とパフォーマンス制限に対処する上で有効であることが証明されている。
しかし、PDEデータセットの方程式型の不均一性により、混合学習において高い誤差が生じるため、課題は残る。
さらに、ネットワーク幅や深度を増大させることでパラメータを拡大する高密度事前学習モデルも大きな推論コストを発生させる。
これらの課題に対処するために,パラメータを効率よくスケールし,推論コストを制御したスパースアクティブアーキテクチャであるMixture-of-Experts Pre-training Operator Transformer (MoE-POT)を提案する。
具体的には,階層的なルータゲーティングネットワークを用いて,推論中に16のエキスパートネットワークから4つのルーティングされた専門家を動的に選択し,モデルが方程式固有の特徴に集中できるようにする。
また、2つの共有専門家を統合し、PDEの共通特性を捕捉し、ルーティングされた専門家の冗長性を低減することを目的としています。
最終的な出力は、活性化されたすべての専門家による結果の重み付け平均として計算される。
6つのパブリックPDEデータセット上で,パラメータを30Mから0.5Bに事前トレーニングする。
90Mのアクティベートパラメータを持つモデルでは、既存の120Mのアクティベートパラメータを持つモデルと比較して最大40%のゼロショット誤差が減少する。
さらに、我々は、ルータゲーティングネットワークの決定からデータセットの型を推定できることを示し、MoEアーキテクチャの合理性と有効性を検証する。
関連論文リスト
- DeepONet Augmented by Randomized Neural Networks for Efficient Operator Learning in PDEs [5.84093922354671]
精度と効率のバランスをとるために設計されたハイブリッドアーキテクチャであるRaNN-DeepONetsを提案する。
RaNN-DeepONetsは計算コストを桁違いに削減しながら、同等の精度を達成する。
これらの結果は、PDEシステムにおける演算子学習の効率的な代替手段としてのRaNN-DeepONetsの可能性を強調している。
論文 参考訳(メタデータ) (2025-03-01T03:05:29Z) - Physics-informed Discretization-independent Deep Compositional Operator Network [1.2430809884830318]
我々はPDEパラメータと不規則領域形状の様々な離散表現に一般化できる新しい物理インフォームドモデルアーキテクチャを提案する。
ディープ・オペレーター・ニューラルネットワークにインスパイアされた我々のモデルは、パラメータの繰り返し埋め込みの離散化に依存しない学習を含む。
提案手法の精度と効率を数値計算により検証した。
論文 参考訳(メタデータ) (2024-04-21T12:41:30Z) - DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training [87.90342423839876]
我々は,PDEデータに対するより安定的で効率的な事前学習を可能にする,自己回帰型事前学習戦略を提案する。
我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-03-06T08:38:34Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - LordNet: An Efficient Neural Network for Learning to Solve Parametric Partial Differential Equations without Simulated Data [47.49194807524502]
エンタングルメントをモデル化するためのチューナブルで効率的なニューラルネットワークであるLordNetを提案する。
ポアソン方程式と(2Dおよび3D)ナビエ・ストークス方程式を解く実験は、長距離の絡み合いがロードネットによってうまくモデル化できることを示した。
論文 参考訳(メタデータ) (2022-06-19T14:41:08Z) - Physics-enhanced deep surrogates for partial differential equations [30.731686639510517]
本稿では, 複雑な物理系のための高速サロゲートモデル開発に向けて, 物理強化ディープサロゲート(PEDS)アプローチを提案する。
具体的には,低忠実で説明可能な物理シミュレータとニューラルネットワークジェネレータの組み合わせを提案する。
論文 参考訳(メタデータ) (2021-11-10T18:43:18Z) - Mitigating severe over-parameterization in deep convolutional neural
networks through forced feature abstraction and compression with an
entropy-based heuristic [7.503338065129185]
本稿では,エントロピーに基づく畳み込み層推定(EBCLE)を提案する。
EBCLEを用いて訓練したより広いが浅いモデルの相対的有効性を強調する実証的証拠を提示する。
論文 参考訳(メタデータ) (2021-06-27T10:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。