論文の概要: Towards Foundational Models for Dynamical System Reconstruction: Hierarchical Meta-Learning via Mixture of Experts
- arxiv url: http://arxiv.org/abs/2502.05335v1
- Date: Fri, 07 Feb 2025 21:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:56.816582
- Title: Towards Foundational Models for Dynamical System Reconstruction: Hierarchical Meta-Learning via Mixture of Experts
- Title(参考訳): 動的システム再構築のための基礎モデルに向けて:専門家の混在による階層的メタラーニング
- Authors: Roussel Desmond Nzoyem, David A. W. Barton, Tom Deakin,
- Abstract要約: MixER: Mixture of Expert Reconstructors, a novel sparse top-1 MoE layer using a custom gating update algorithm based on $K$-means and least squares。
実験では、MixERの能力を検証し、最大10の通常のパラメトリック微分方程式の系に対する効率的なトレーニングとスケーラビリティを示す。
我々の層は、特に専門家が高度に関連したデータポイントからなるデータセットのごく一部しか処理できない場合、ハイデータレシエーションにおける最先端のメタラーナーを過小評価します。
- 参考スコア(独自算出の注目度): 0.7373617024876724
- License:
- Abstract: As foundational models reshape scientific discovery, a bottleneck persists in dynamical system reconstruction (DSR): the ability to learn across system hierarchies. Many meta-learning approaches have been applied successfully to single systems, but falter when confronted with sparse, loosely related datasets requiring multiple hierarchies to be learned. Mixture of Experts (MoE) offers a natural paradigm to address these challenges. Despite their potential, we demonstrate that naive MoEs are inadequate for the nuanced demands of hierarchical DSR, largely due to their gradient descent-based gating update mechanism which leads to slow updates and conflicted routing during training. To overcome this limitation, we introduce MixER: Mixture of Expert Reconstructors, a novel sparse top-1 MoE layer employing a custom gating update algorithm based on $K$-means and least squares. Extensive experiments validate MixER's capabilities, demonstrating efficient training and scalability to systems of up to ten parametric ordinary differential equations. However, our layer underperforms state-of-the-art meta-learners in high-data regimes, particularly when each expert is constrained to process only a fraction of a dataset composed of highly related data points. Further analysis with synthetic and neuroscientific time series suggests that the quality of the contextual representations generated by MixER is closely linked to the presence of hierarchical structure in the data.
- Abstract(参考訳): 基礎モデルが科学的発見を形作るにつれ、動的システム再構築(DSR)においてボトルネックが持続する。
多くのメタラーニングアプローチは単一のシステムにうまく適用されているが、複数の階層を学習する必要がある疎結合なデータセットに直面するとフェールする。
Mixture of Experts (MoE)はこれらの課題に対処するための自然なパラダイムを提供する。
これらの可能性にもかかわらず、直感的なMoEは階層的DSRの不規則な要求に不適切であることを示す。
この制限を克服するために、我々はMixER: Mixture of Expert Reconstructorsを紹介します。
大規模な実験はMixERの能力を検証し、最大10パラメトリック常微分方程式の系に対する効率的な訓練と拡張性を実証する。
しかし、この階層は、特に専門家が高度に関連性の高いデータポイントからなるデータセットのごく一部しか処理できない場合、高度なデータレシエーションにおいて最先端のメタラーナーを過小評価する。
合成・神経科学時系列によるさらなる分析は、MixERによって生成された文脈表現の質が、データの階層構造の存在と密接に関連していることを示唆している。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - LayerMix: Enhanced Data Augmentation through Fractal Integration for Robust Deep Learning [1.786053901581251]
ディープラーニングモデルは、アウト・オブ・ディストリビューション(OOD)のサンプルに直面すると、一貫したパフォーマンスを維持するのに苦労することが多い。
モデルロバスト性を体系的に強化する革新的なデータ拡張アプローチであるLayerMixを紹介する。
本手法は,ニューラルネットワークの一般化能力を大幅に向上させる意味論的一貫した合成サンプルを生成する。
論文 参考訳(メタデータ) (2025-01-08T22:22:44Z) - Learning Hierarchical Features with Joint Latent Space Energy-Based
Prior [44.4434704520236]
階層表現学習における多層ジェネレータモデルの基本的問題について検討する。
実効的階層型表現学習のための多層潜在変数を用いた有意な潜在空間EMM事前モデルを提案する。
論文 参考訳(メタデータ) (2023-10-14T15:44:14Z) - Spintronics for image recognition: performance benchmarking via
ultrafast data-driven simulations [4.2412715094420665]
単一スピントロニクスナノ構造を用いたエコー状態ネットワーク(ESN)による画像分類の実証を行った。
我々は、STVO力学をシミュレートするために、データ駆動型Thiele方程式アプローチと呼ばれる超高速なデータ駆動シミュレーションフレームワークを用いる。
我々は、MNIST、EMNIST-letters、Fashion MNISTデータセットで分類課題を解決するために、この手法をうまく適用することで、ソリューションの汎用性を示す。
論文 参考訳(メタデータ) (2023-08-10T18:09:44Z) - Dynamic Mixed Membership Stochastic Block Model for Weighted Labeled
Networks [3.5450828190071655]
混合メンバシップブロックモデル(MMSBM)の新たなファミリーは、混合メンバシップクラスタリングを前提として静的ラベル付きネットワークをモデル化することができる。
提案手法は既存手法とは大きく異なり,より複雑なシステム - 動的ラベル付きネットワークをモデル化できることを示す。
論文 参考訳(メタデータ) (2023-04-12T15:01:03Z) - Integrating Multimodal Data for Joint Generative Modeling of Complex Dynamics [6.848555909346641]
最適復元のための様々な情報ソースを組み合わせるための効率的なフレームワークを提供する。
我々のフレームワークは完全にテキスト生成され、訓練後に、基底真理系と同じ幾何学的、時間的構造を持つ軌道を生成します。
論文 参考訳(メタデータ) (2022-12-15T15:21:28Z) - Towards Understanding Mixture of Experts in Deep Learning [95.27215939891511]
ニューラルネットワーク学習におけるMoE層の性能向上について検討する。
この結果から,基礎となる問題のクラスタ構造と専門家の非線形性は,MoEの成功に欠かせないことが示唆された。
論文 参考訳(メタデータ) (2022-08-04T17:59:10Z) - Using Data Assimilation to Train a Hybrid Forecast System that Combines
Machine-Learning and Knowledge-Based Components [52.77024349608834]
利用可能なデータがノイズの多い部分測定の場合,カオスダイナミクスシステムのデータ支援予測の問題を検討する。
動的システムの状態の部分的測定を用いることで、不完全な知識ベースモデルによる予測を改善するために機械学習モデルを訓練できることを示す。
論文 参考訳(メタデータ) (2021-02-15T19:56:48Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。