論文の概要: TileQ: Efficient Low-Rank Quantization of Mixture-of-Experts with 2D Tiling
- arxiv url: http://arxiv.org/abs/2605.09281v1
- Date: Sun, 10 May 2026 03:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.165056
- Title: TileQ: Efficient Low-Rank Quantization of Mixture-of-Experts with 2D Tiling
- Title(参考訳): TileQ: 2次元タイリングによるエクスプロイトの高効率低ランク量子化
- Authors: Hongyaoxing Gu, Xinzhe Chen, Lijuan Hu, Fangfang Liu,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、専門的な専門家をわずかに活性化することで、優れたパフォーマンスを達成する。
低ランク量子化は、MoEモデルを圧縮するための有望なルートを提供するが、既存のメソッドは、まだ無視できないメモリオーバーヘッドと推論レイテンシを発生させる。
提案するTextscTileQは,MoEエキスパートの入力次元と出力次元の両方で,低ランク要因を共有するための微調整後量子化手法である。
- 参考スコア(独自算出の注目度): 3.4199566861263135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models achieve remarkable performance by sparsely activating specialized experts, yet their massive parameters in experts pose significant challenges for deployment. While low-rank quantization offers a promising route to compress MoE models, existing methods still incur nonnegligible memory overhead and inference latency. To address these limitations, we propose \textsc{TileQ}, a fine-tuning-free post-training quantization (PTQ) method that employs 2D-tiling structured low-rank quantization to share low-rank factors across both input and output dimensions of MoE experts. Furthermore, we introduce an efficient inference technique for \textsc{TileQ} that fuses multiple low-rank expert computations into a single-pass operation, significantly improving hardware utilization. Experiments show that \textsc{TileQ} cuts down additional memory usage up to 10$\times$ and reduces inference latency to $\sim$5\% while preserving state-of-the-art accuracy.
- Abstract(参考訳): 混合専門家(Mixture-of-Experts、MoE)モデルは、専門の専門家をわずかに活性化することで、優れたパフォーマンスを達成するが、専門家の膨大なパラメータは、デプロイメントに重大な課題を生じさせる。
低ランク量子化は、MoEモデルを圧縮するための有望なルートを提供するが、既存の方法は、まだ無視できないメモリオーバーヘッドと推論レイテンシを発生させる。
これらの制約に対処するために,2次元型構造化低ランク量子化を用いてMoEエキスパートの入力次元と出力次元の両方で低ランク因子を共有する,微調整不要なポストトレーニング量子化(PTQ)法である \textsc{TileQ} を提案する。
さらに,複数の低ランクな専門家計算を単一パス演算に融合させ,ハードウェア利用率を大幅に向上させる,‘textsc{TileQ} の効率的な推論手法を提案する。
実験によると、 \textsc{TileQ} はメモリ使用量を 10$\times$ に削減し、推論遅延を $\sim$5\% に削減し、最先端の精度を維持している。
関連論文リスト
- Efficient Quantization of Mixture-of-Experts with Theoretical Generalization Guarantees [13.67631667766697]
Sparse Mixture-of-Experts (MoE) は、入力毎に少数の専門家のみを活性化することにより、言語とビジョンモデルのスケーリングを効率的に行うことができる。
MoEは推論中にかなりのメモリオーバーヘッドを発生させる。
本稿では,学習中のルータl2ノルムの変化に基づいて,各専門家にビット幅を割り当てる,理論的に基礎付けられた混合精度戦略を提案する。
論文 参考訳(メタデータ) (2026-04-07T23:17:23Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。
後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。
本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-02T08:51:55Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。