論文の概要: Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models
- arxiv url: http://arxiv.org/abs/2505.16056v1
- Date: Wed, 21 May 2025 22:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.932083
- Title: Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models
- Title(参考訳): すべてのモデルが専門家のオフロードに適合するわけではない:-Mixture-of-Expert Modelの局所ルーティング整合性について
- Authors: Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei,
- Abstract要約: Mixture-of-Experts (MoE) は、推論中に専門家がわずかに活性化された大きな言語モデルの効率的なスケーリングを可能にする。
多くのシステムでは,専門家のサブセットを高速メモリにキャッシュする*専門家オフロード*を導入している。
各層にMoEを適用し、共有専門家を使用しないモデルは、最も高い局所的なルーティング一貫性を示す。
- 参考スコア(独自算出の注目度): 35.617468386609254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) enables efficient scaling of large language models (LLMs) with sparsely activated experts during inference. To effectively deploy large MoE models on memory-constrained devices, many systems introduce *expert offloading* that caches a subset of experts in fast memory, leaving others on slow memory to run on CPU or load on demand. While some research has exploited the locality of expert activations, where consecutive tokens activate similar experts, the degree of this **local routing consistency** varies across models and remains understudied. In this paper, we propose two metrics to measure local routing consistency of MoE models: (1) **Segment Routing Best Performance (SRP)**, which evaluates how well a fixed group of experts can cover the needs of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which measures the optimal segment-level cache hit rate under a given cache size limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found that models that apply MoE on every layer and do not use shared experts exhibit the highest local routing consistency. We further showed that domain-specialized experts contribute more to routing consistency than vocabulary-specialized ones, and that most models can balance between cache effectiveness and efficiency with cache sizes approximately 2x the active experts. These findings pave the way for memory-efficient MoE design and deployment without compromising inference speed. We publish the code for replicating experiments at https://github.com/ljcleo/moe-lrc .
- Abstract(参考訳): Mixture-of-Experts (MoE) は、推論中にわずかにアクティベートされた専門家と大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
メモリ制約のあるデバイスに大規模なMoEモデルを効果的にデプロイするために、多くのシステムが *expert offloading*を導入している。
いくつかの研究では、連続するトークンが同様の専門家を活性化するエキスパートアクティベーションの局所性を利用してきたが、*局所的なルーティング一貫性**の程度はモデルによって異なり、まだ検討が続けられている。
本稿では,MoEモデルの局所的なルーティング一貫性を測定するための2つの指標を提案する。(1)*Segment Routing Best Performance (SRP)**,(2)**Segment Cache Best Hit Rate (SCH)**,(2)**Segment Cache Best Hit Rate (SCH)**。
多様なサイズとアーキテクチャを持つ20のMOE LLMを分析し,MoEをすべての層に適用し,共有専門家を使用しないモデルは,最も高い局所的なルーティング一貫性を示すことを示した。
さらに、ドメイン特化専門家は語彙特化専門家よりもルーティング一貫性に寄与し、ほとんどのモデルは、キャッシュ効率と効率を、アクティブエキスパートの約2倍のキャッシュサイズでバランスできることを示した。
これらの知見は、推論速度を損なうことなく、メモリ効率のよいMoE設計と展開の道を開く。
実験を複製するためのコードはhttps://github.com/ljcleo/moe-lrc で公開しています。
関連論文リスト
- CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。
我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。
CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference [14.57414071160821]
本稿では,トークン生成時に専門家の再利用を活用し,キャッシュの局所性を改善する新しいキャッシュ対応ルーティング戦略を提案する。
モバイルデバイス上での2$times$のスピードアップを実演する。
論文 参考訳(メタデータ) (2024-11-27T18:59:48Z) - Condense, Don't Just Prune: Enhancing Efficiency and Performance in MoE Layer Pruning [26.945473092961123]
本研究では,大小のMoE層をより小さく,より密度の高い層に縮合するConDense-MoEを提案する。
当社のアプローチは,Feed-Forward Networksを多数の小さなエキスパートに分割する,共有専門家による詳細なMoEのために特別に設計されています。
論文 参考訳(メタデータ) (2024-11-26T00:56:18Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。
本稿では,BAM(Branch-Attend-Mix)を提案する。
5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文 参考訳(メタデータ) (2024-08-15T17:19:12Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。