論文の概要: Temporally Extended Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2604.20156v1
- Date: Wed, 22 Apr 2026 03:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.95525
- Title: Temporally Extended Mixture-of-Experts Models
- Title(参考訳): 時間的に拡張されたエクスプロイト混合モデル
- Authors: Zeyu Shen, Peter Henderson,
- Abstract要約: Mixture-of-Expertsモデルは、一定の推論速度でキャパシティをスケーリングするのに人気がある。
モデルが利用可能なGPUメモリを上回ると、このチャーンはオフロードやプレフェッチといった最適化を非効率にレンダリングすることができる。
我々は、強化学習におけるオプションフレームワークがこの問題に取り組むのに最適であり、時間的に拡張された熟練層について論じる。
- 参考スコア(独自算出の注目度): 6.07059176899521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts models, now popular for scaling capacity at fixed inference speed, switch experts at nearly every token. Once a model outgrows available GPU memory, this churn can render optimizations like offloading and pre-fetching ineffective. We make the case that the options framework in reinforcement learning is a perfect match to tackle this problem, and argue for temporally extended mixture-of-experts layers. Building on the option-critic framework with deliberation costs, we add a controller to each layer that learns when to switch expert sets and which to load. By applying this to gpt-oss-20b with low-rank adapters and a self-distillation reward, our method reduces switch rates from over 50% to below 5% while retaining up to 90% of base-model accuracy on MATH, MMLU, and MMMLU. This shows that even existing pre-trained models can be converted to temporally extended MoEs with lightweight training, with the deliberation cost allowing model trainers to trade off switching rates against capability. We hope this opens a principled path, grounded in the options framework, for memory-efficient serving and continual learning in ever-growing MoE models.
- Abstract(参考訳): Mixture-of-Expertsモデルは、固定推論速度でキャパシティをスケーリングするために人気となり、ほぼすべてのトークンで専門家を切り替える。
モデルが利用可能なGPUメモリを上回ると、このチャーンはオフロードやプレフェッチといった最適化を非効率にレンダリングすることができる。
我々は、強化学習におけるオプションフレームワークがこの問題に取り組むのに最適であり、時間的に拡張された熟練層について論じる。
検討コストを伴うオプションクリティカルなフレームワーク上に構築され、各レイヤにコントローラを追加し、専門家セットをいつ切り替えるか、ロードするかを学習します。
低ランクアダプタと自己蒸留報酬を備えたgpt-oss-20bに適用することにより,MATH,MMLU,MMMLUのベースモデル精度の最大90%を維持しながら,スイッチレートを50%以上から5%以下に削減する。
これは、既存の事前訓練モデルでさえ、軽量なトレーニングで時間的に拡張されたMoEに変換可能であることを示している。
進化を続けるMoEモデルにおいて、メモリ効率の高いサービスと継続的な学習のためのオプションフレームワークに根ざした、原則化されたパスがオープンされることを願っています。
関連論文リスト
- Scalable Training of Mixture-of-Experts Models with Megatron Core [26.9162079065285]
MOE(Scaling Mixture-of-Experts)トレーニングでは、密集したモデルに欠けているシステムの課題が導入されている。
各トークンは専門家のサブセットのみを活性化するため、このスパーシリティにより、トータルパラメータはトーケン計算よりもはるかに高速に成長できる。
メモリ(微細な再計算,オフロード,通信,計算)の統合最適化により,MoEトレーニングにおけるこれらの課題に対処する。
論文 参考訳(メタデータ) (2026-03-08T15:42:43Z) - MoE-DisCo:Low Economy Cost Training Mixture-of-Experts Models [6.372179935695467]
大規模なMixture-of-Experts(MoE)モデルのトレーニングには、高メモリで高帯域幅のGPU(例:A100)が必要である。
MoE-DisCoは、MoEモデルを複数の密集したサブモデルに分解し、それぞれが共有バックボーンと単一のエキスパートで構成され、トレーニングデータを教師なしクラスタリングを使用してサブセットに分割する。
論文 参考訳(メタデータ) (2026-01-11T10:59:15Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - SYMI: Efficient Mixture-of-Experts Training via Model and Optimizer State Decoupling [1.2777855412373709]
Mixture-of-Experts (MoE)モデルは、計算の線形増加を伴わずに、モデルサイズを拡大し続けるために広く採用されているソリューションとなっている。
現在のシステムでは、人気のある専門家に割り当てられたトークンをドロップするか、収束を低下させるか、あるいは人気に基づいて各専門家に割り当てられたリソースを頻繁に再バランスさせなければならない。
適応型MOEトレーニングシステムであるSYMIを紹介する。
論文 参考訳(メタデータ) (2025-04-28T15:58:55Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。