論文の概要: Cost-Penalized Fitness in FMA-Orchestrated Mixture of Experts: Experimental Evidence for Molecular Memory in Domain Adaptation
- arxiv url: http://arxiv.org/abs/2604.00812v1
- Date: Wed, 01 Apr 2026 12:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.978561
- Title: Cost-Penalized Fitness in FMA-Orchestrated Mixture of Experts: Experimental Evidence for Molecular Memory in Domain Adaptation
- Title(参考訳): FMA-Orchestrated Mixture of Experts : ドメイン適応における分子記憶の実験的エビデンス
- Authors: Martin Jaraiz,
- Abstract要約: 本研究では,FMA (Free-Market Algorithm) とMoE (Mixture-of-Experts) を併用したトランスフォーマであるNanoFMTの7つの制御動作について実験を行った。
我々は、費用対価の適合度指標と、新生児の専門家のための線形優雅期間を組み合わせることで、代替ではなく多様化を通じてドメインの専門知識を蓄積するシステムを構築することを実証した。
予備費用分析では、穏健なシナリオの下で、OpenAIスケールのプロバイダに対して年間39.1Mと27.1GWhの省エネを見積もっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present experimental results from seven controlled runs of nanoFMT, a Free-Market Algorithm (FMA) orchestrated transformer with dynamic Mixture-of-Experts (MoE) management. The experiments address a fundamental question for advanced LLM development: how should an MoE system manage its expert pool when operating at full capacity under changing data distributions? We demonstrate that cost-penalized fitness metrics, combined with a linear grace period for newborn experts, produce a system that accumulates domain expertise through diversification rather than replacement. The central result is a round-trip domain shift experiment showing 9-11x faster recovery when returning to a previously learned domain, with zero expert births or replacements required. This "molecular memory" effect -- where dormant experts survive and reactivate when their domain returns -- has no analogue in current MoE management approaches. A preliminary cost analysis estimates annual savings of $39.1M and 27.1 GWh energy reduction for an OpenAI-scale provider under a moderate scenario.
- Abstract(参考訳): 本研究では,FMA (Free-Market Algorithm) とMoE (Mixture-of-Experts) を併用したトランスフォーマであるNanoFMTの7つの制御動作について実験を行った。
実験は、高度なLCM開発のための根本的な問題に対処する。MOEシステムは、データ分散の変化の下でフル容量で運用する際に、どのように専門家プールを管理するべきか?
我々は、費用対価の適合度指標と、新生児の専門家のための線形優雅期間を組み合わせることで、代替ではなく多様化を通じてドメインの専門知識を蓄積するシステムを構築することを実証した。
中心的な結果は、学習済みのドメインに戻ると9-11倍高速なリカバリを示すラウンドトリップドメインシフト実験であり、専門家の誕生や置き換えは不要である。
この"分子記憶"効果 — ドメインが戻ると、休眠の専門家が生き残り、再活性化する — は、現在のMoE管理アプローチに類を見ない。
予備費用分析では、穏健なシナリオの下で、OpenAIスケールのプロバイダに対して年間39.1Mと27.1GWhの省エネを見積もっている。
関連論文リスト
- ExFusion: Efficient Transformer Training via Multi-Experts Fusion [44.08657544416735]
Mixture-of-Experts (MoE)モデルは、密集したアーキテクチャの容量を増やすことで性能を大幅に向上させる。
MoEモデルを直接トレーニングするには、かなりの計算リソースが必要で、パラメータの保存とデプロイに余分なオーバーヘッドが伴う。
本稿では,マルチエキスパート融合によるトランスフォーマートレーニングの効率化を図る,ExFusionと呼ばれる新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2026-03-30T02:40:20Z) - Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts [43.63398524449102]
Mixture-of-Experts (MoE)モデルは通常、トレーニングと推論の両方でアクティベートされた専門家の数を$k$に修正する。
新たなトレーニングフレームワークであるElastic Mixture-of-Experts(EMoE)を導入しました。
論文 参考訳(メタデータ) (2025-09-26T05:29:19Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters [11.05223262950967]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - Residual Mixture of Experts [75.5489156421442]
Residual Mixture of Experts (RMoE)は、下流タスクにおけるMoEビジョントランスフォーマーの効率的なトレーニングパイプラインである。
RMoEは上向きのMoEトレーニングで同等の結果を得るが、追加のトレーニングコストはわずかである。
論文 参考訳(メタデータ) (2022-04-20T17:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。