論文の概要: MixtureKit: A General Framework for Composing, Training, and Visualizing Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2512.12121v1
- Date: Sat, 13 Dec 2025 01:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.132556
- Title: MixtureKit: A General Framework for Composing, Training, and Visualizing Mixture-of-Experts Models
- Title(参考訳): MixtureKit:Mixture-of-Expertsモデルの構築、トレーニング、視覚化のための一般的なフレームワーク
- Authors: Ahmad Chamma, Omar El Herraoui, Guokan Shang,
- Abstract要約: 我々は、任意のトレーニング済みまたは微調整済みモデルからMixture-of-Experts(MoE)モデルを構築し、訓練し、分析するためのモジュラー・オープンソース・フレームワークを導入する。
MixtureKitは3つの補完的な方法をサポートしている: (i) emphTraditional MoE、(ii) emphBTX (Branch-Train-Mix)。
- 参考スコア(独自算出の注目度): 6.3350351413826544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MixtureKit, a modular open-source framework for constructing, training, and analyzing Mixture-of-Experts (MoE) models from arbitrary pre-trained or fine-tuned models. MixtureKit currently supports three complementary methods: (i) \emph{Traditional MoE}, which uses a single router per transformer block to select experts, (ii) \emph{BTX} (Branch-Train-Mix), which introduces separate routers for each specified sub-layer enabling fine-grained token routing, and (iii) \emph{BTS} (Branch-Train-Stitch), which keeps experts fully intact and introduces trainable stitch layers for controlled information exchange between hub and experts. MixtureKit automatically modifies the model configuration, patches decoder and causal LM classes, and saves a unified checkpoint ready for inference or fine-tuning. We further provide a visualization interface to inspect per-token routing decisions, expert weight distributions, and layer-wise contributions. Experiments with multilingual code-switched data (e.g. Arabic-Latin) show that a BTX-based model trained using MixtureKit can outperform baseline dense models on multiple benchmarks. We release MixtureKit as a practical foundation for research and development of MoE-based systems across diverse domains.
- Abstract(参考訳): MixtureKitは、任意のトレーニング済みモデルや微調整済みモデルからMixture-of-Experts(MoE)モデルを構築し、トレーニングし、分析するためのオープンソースのモジュラーフレームワークである。
MixtureKitは現在、3つの補完メソッドをサポートしている。
i) \emph{Traditional MoE} — 専門家を選択するために、トランスバータブロック毎に1つのルータを使用する。
(ii) \emph{BTX} (Branch-Train-Mix) 特定のサブレイヤごとに異なるルータを導入し、きめ細かいトークンルーティングを可能にする。
(iii) "emph{BTS} (Branch-Train-Stitch)" は専門家を完全無傷で維持し、ハブと専門家の間で情報交換を制御するためのトレーニング可能な縫い付け層を導入している。
MixtureKitはモデル設定を自動的に変更し、デコーダと因果LMクラスをパッチし、推論や微調整のための統一されたチェックポイントを保存する。
さらに、トークンごとのルーティング決定、専門的なウェイト分布、レイヤワイドコントリビューションを検査するための可視化インターフェースを提供する。
MixtureKitを使ってトレーニングされたBTXベースのモデルは、複数のベンチマークでベースラインの高密度モデルより優れています。
多様なドメインにまたがるMoEベースのシステムの研究・開発のための実践的基盤としてMixtureKitをリリースする。
関連論文リスト
- Mixtera: A Data Plane for Foundation Model Training [1.797352319167759]
基礎モデルトレーニングのためのデータプレーンであるMixteraを構築、提示します。
Mixteraはトレーニングをボトルネックにせず、256GH200スーパーチップにスケールする。
また、視覚言語モデルにおける混合の役割についても検討する。
論文 参考訳(メタデータ) (2025-02-27T05:55:44Z) - MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts [38.15244333975921]
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。
提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
論文 参考訳(メタデータ) (2024-07-13T09:22:33Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - Mixture-Models: a one-stop Python Library for Model-based Clustering
using various Mixture Models [4.60168321737677]
textttMixture-Modelsは、Gaussian Mixture Models(GMM)とその変種を適合させるオープンソースのPythonライブラリである。
様々な第1/第2次最適化ルーチンを使用して、これらのモデルの実装と分析を合理化する。
このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。
論文 参考訳(メタデータ) (2024-02-08T19:34:24Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - OpenMixup: Open Mixup Toolbox and Benchmark for Visual Representation Learning [53.57075147367114]
視覚表現学習のための最初のミックスアップ拡張とベンチマークであるOpenMixupを紹介する。
私たちは、スクラッチから18の代表的なミックスアップベースラインをトレーニングし、11の画像データセットでそれらを厳格に評価します。
また、人気のあるビジョンバックボーン、最適化戦略、分析ツールキットのコレクションを含むモジュラーバックボーンをオープンソースにしています。
論文 参考訳(メタデータ) (2022-09-11T12:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。