論文の概要: MoBiE: Efficient Inference of Mixture of Binary Experts under Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2604.06798v1
- Date: Wed, 08 Apr 2026 08:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.418555
- Title: MoBiE: Efficient Inference of Mixture of Binary Experts under Post-Training Quantization
- Title(参考訳): MoBiE: 評価後の量子化の下でのバイナリエキスパートの混合の効率的な推論
- Authors: Zhixiong Zhao, Zukang Xu, Zhixuan Chen, Dawei Yang,
- Abstract要約: MoBiEは、Mixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)用に設計されたバイナライズフレームワークである。
MoBiEは、複数のMoEベースのLLMとベンチマークで最先端のバイナリメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 11.19613037505662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) based large language models (LLMs) offer strong performance but suffer from high memory and computation costs. Weight binarization provides extreme efficiency, yet existing binary methods designed for dense LLMs struggle with MoE-specific issues, including cross-expert redundancy, task-agnostic importance estimation, and quantization-induced routing shifts. To this end, we propose MoBiE, the first binarization framework tailored for MoE-based LLMs. MoBiE is built on three core innovations: 1. using joint SVD decomposition to reduce cross-expert redundancy; 2. integrating global loss gradients into local Hessian metrics to enhance weight importance estimation; 3. introducing an error constraint guided by the input null space to mitigate routing distortion. Notably, MoBiE achieves these optimizations while incurring no additional storage overhead, striking a balance between efficiency and model performance. Extensive experiments demonstrate that MoBiE consistently outperforms state-of-the-art binary methods across multiple MoE-based LLMs and benchmarks. For example, on Qwen3-30B-A3B, MoBiE reduces perplexity by 52.2$\%$, improves average zero-shot performance by 43.4$\%$, achieves over 2 $\times$ inference speedup, and further shortens quantization time. The code is available at https://github.com/Kishon-zzx/MoBiE.
- Abstract(参考訳): Mixture-of-Experts (MoE) ベースの大規模言語モデル (LLM) は高い性能を提供するが、高いメモリと計算コストに悩まされている。
重み二項化は極端に効率が良いが、高密度LLM向けに設計された既存のバイナリメソッドは、クロスエキスパート冗長性、タスク非依存の重要度推定、量子化によるルーティングシフトなど、MoE固有の問題に苦しむ。
そこで本研究では,MoE ベースの LLM に適した最初のバイナライズフレームワークである MoBiE を提案する。
MoBiEは3つのコアイノベーションの上に構築されている。
一 クロスエキスパート冗長性を低減するために共同SVD分解を用いること。
2.グローバル損失勾配を局所ヘッセン指標に統合し、重み付けの重み付けを向上する。
3. 入力null空間によって導かれるエラー制約を導入して、ルーティングの歪みを緩和する。
特に、MoBiEはこれらの最適化を達成しつつ、追加のストレージオーバーヘッドを発生させることなく、効率とモデルパフォーマンスのバランスを保っている。
大規模な実験により、MoBiEは複数のMoEベースのLLMとベンチマークで最先端のバイナリメソッドを一貫して上回ることを示した。
例えば、Qwen3-30B-A3Bでは、MoBiEは難易度を52.2$\%$に下げ、平均ゼロショット性能を43.4$\%$に改善し、2$\times$推論スピードアップを達成し、さらに量子化時間を短縮する。
コードはhttps://github.com/Kishon-zzx/MoBiE.comで入手できる。
関連論文リスト
- MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE [12.498106165046233]
Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
論文 参考訳(メタデータ) (2025-07-01T03:02:59Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。