論文の概要: MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2506.14435v1
- Date: Tue, 17 Jun 2025 11:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.450496
- Title: MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models
- Title(参考訳): MoTE:メモリ効率の高い大規模マルチモーダルモデルのための3つのエキスパートの混合
- Authors: Hongyu Wang, Jiayu Xu, Ruiping Wang, Yan Feng, Yitao Zhai, Peng Pei, Xunliang Cai, Xilin Chen,
- Abstract要約: MoTEは、密なチェックポイントからMixture-of-Ternary-Expertsモデルをトレーニングするためのスケーラブルでメモリ効率のよいアプローチである。
MoTEはメモリフットプリントを低くしながら、完全精度のベースラインであるMoE-LLaVAに匹敵するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 36.730689832979365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal Mixture-of-Experts (MoEs) effectively scale the model size to boost performance while maintaining fixed active parameters. However, previous works primarily utilized full-precision experts during sparse up-cycling. Despite they show superior performance on end tasks, the large amount of experts introduces higher memory footprint, which poses significant challenges for the deployment on edge devices. In this work, we propose MoTE, a scalable and memory-efficient approach to train Mixture-of-Ternary-Experts models from dense checkpoint. Instead of training fewer high-precision experts, we propose to train more low-precision experts during up-cycling. Specifically, we use the pre-trained FFN as a shared expert and train ternary routed experts with parameters in {-1, 0, 1}. Extensive experiments show that our approach has promising scaling trend along model size. MoTE achieves comparable performance to full-precision baseline MoE-LLaVA while offering lower memory footprint. Furthermore, our approach is compatible with post-training quantization methods and the advantage further amplifies when memory-constraint goes lower. Given the same amount of expert memory footprint of 3.4GB and combined with post-training quantization, MoTE outperforms MoE-LLaVA by a gain of 4.3% average accuracy on end tasks, demonstrating its effectiveness and potential for memory-constrained devices.
- Abstract(参考訳): 大規模マルチモーダルMixture-of-Experts (MoEs) はモデルサイズを効果的にスケールし、固定されたアクティブパラメータを維持しながら性能を向上させる。
しかし、以前の作品は主にスパースアップサイクル中に完全精度の専門家を利用していた。
エンドタスクのパフォーマンスは優れているが、多くの専門家がメモリフットプリントを高く導入し、エッジデバイスへのデプロイにおいて大きな課題を提起している。
本研究では,Mixture-of-Ternary-Expertsモデルを高密度チェックポイントからトレーニングするための,スケーラブルでメモリ効率のよいMoTEを提案する。
より少ない高精度の専門家を訓練する代わりに、より低い精度の専門家をサイクルアップ中に訓練することを提案する。
具体的には、事前訓練されたFFNを共有専門家として使用し、{-1, 0, 1} のパラメータを持つ3次ルーティング専門家を訓練する。
大規模な実験により、我々のアプローチはモデルサイズに沿ったスケーリングトレンドを約束していることがわかった。
MoTEはメモリフットプリントを低くしながら、完全精度のベースラインであるMoE-LLaVAに匹敵するパフォーマンスを実現している。
さらに,本手法は学習後の量子化手法と互換性があり,メモリ制約が小さくなるとさらに利点が増幅される。
メモリフットプリントは3.4GBと同じで、トレーニング後の量子化と組み合わせて、MoTEはMoE-LLaVAを4.3%の平均精度で上回り、メモリ制限されたデバイスの有効性と可能性を実証している。
関連論文リスト
- HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。
本稿では,BAM(Branch-Attend-Mix)を提案する。
5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文 参考訳(メタデータ) (2024-08-15T17:19:12Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。