Fugu-MT 論文翻訳(概要): Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

論文の概要: Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

arxiv url: http://arxiv.org/abs/2505.16056v1
Date: Wed, 21 May 2025 22:13:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:47.932083
Title: Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models
Title（参考訳）: すべてのモデルが専門家のオフロードに適合するわけではない:-Mixture-of-Expert Modelの局所ルーティング整合性について
Authors: Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei,
Abstract要約: Mixture-of-Experts (MoE) は、推論中に専門家がわずかに活性化された大きな言語モデルの効率的なスケーリングを可能にする。多くのシステムでは,専門家のサブセットを高速メモリにキャッシュする*専門家オフロード*を導入している。各層にMoEを適用し、共有専門家を使用しないモデルは、最も高い局所的なルーティング一貫性を示す。
参考スコア（独自算出の注目度）: 35.617468386609254
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Mixture-of-Experts (MoE) enables efficient scaling of large language models (LLMs) with sparsely activated experts during inference. To effectively deploy large MoE models on memory-constrained devices, many systems introduce *expert offloading* that caches a subset of experts in fast memory, leaving others on slow memory to run on CPU or load on demand. While some research has exploited the locality of expert activations, where consecutive tokens activate similar experts, the degree of this **local routing consistency** varies across models and remains understudied. In this paper, we propose two metrics to measure local routing consistency of MoE models: (1) **Segment Routing Best Performance (SRP)**, which evaluates how well a fixed group of experts can cover the needs of a segment of tokens, and (2) **Segment Cache Best Hit Rate (SCH)**, which measures the optimal segment-level cache hit rate under a given cache size limit. We analyzed 20 MoE LLMs with diverse sizes and architectures and found that models that apply MoE on every layer and do not use shared experts exhibit the highest local routing consistency. We further showed that domain-specialized experts contribute more to routing consistency than vocabulary-specialized ones, and that most models can balance between cache effectiveness and efficiency with cache sizes approximately 2x the active experts. These findings pave the way for memory-efficient MoE design and deployment without compromising inference speed. We publish the code for replicating experiments at https://github.com/ljcleo/moe-lrc .
Abstract（参考訳）: Mixture-of-Experts (MoE) は、推論中にわずかにアクティベートされた専門家と大きな言語モデル(LLM)の効率的なスケーリングを可能にする。メモリ制約のあるデバイスに大規模なMoEモデルを効果的にデプロイするために、多くのシステムが *expert offloading*を導入している。いくつかの研究では、連続するトークンが同様の専門家を活性化するエキスパートアクティベーションの局所性を利用してきたが、*局所的なルーティング一貫性**の程度はモデルによって異なり、まだ検討が続けられている。本稿では,MoEモデルの局所的なルーティング一貫性を測定するための2つの指標を提案する。(1)*Segment Routing Best Performance (SRP)**,(2)**Segment Cache Best Hit Rate (SCH)**,(2)**Segment Cache Best Hit Rate (SCH)**。多様なサイズとアーキテクチャを持つ20のMOE LLMを分析し,MoEをすべての層に適用し,共有専門家を使用しないモデルは,最も高い局所的なルーティング一貫性を示すことを示した。さらに、ドメイン特化専門家は語彙特化専門家よりもルーティング一貫性に寄与し、ほとんどのモデルは、キャッシュ効率と効率を、アクティブエキスパートの約2倍のキャッシュサイズでバランスできることを示した。これらの知見は、推論速度を損なうことなく、メモリ効率のよいMoE設計と展開の道を開く。実験を複製するためのコードはhttps://github.com/ljcleo/moe-lrc で公開しています。

関連論文リスト

Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models [58.54288496296157]
CoE(Chain-of-Experts)は新しいMixture-of-Experts(MoE)アーキテクチャで、各レイヤ内でのシーケンシャルな専門家通信を導入している。イテレーション間の動的専門家選択をサポートするために、CoEはレイヤ内の各ステップに専用のルータを使用している。
論文参考訳（メタデータ） (2025-06-23T02:15:43Z)
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。 CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-06T14:05:30Z)
Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference [14.57414071160821]
本稿では,トークン生成時に専門家の再利用を活用し,キャッシュの局所性を改善する新しいキャッシュ対応ルーティング戦略を提案する。モバイルデバイス上での2$times$のスピードアップを実演する。
論文参考訳（メタデータ） (2024-11-27T18:59:48Z)
Condense, Don't Just Prune: Enhancing Efficiency and Performance in MoE Layer Pruning [26.945473092961123]
本研究では,大小のMoE層をより小さく,より密度の高い層に縮合するConDense-MoEを提案する。当社のアプローチは,Feed-Forward Networksを多数の小さなエキスパートに分割する,共有専門家による詳細なMoEのために特別に設計されています。
論文参考訳（メタデータ） (2024-11-26T00:56:18Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
RouterRetriever: Routing over a Mixture of Expert Embedding Models [58.987116118425995]
本稿では、ルーティング機構を用いて、ドメイン固有の専門家の混在を利用した検索モデルであるReuterRetrieverを紹介する。 RouterRetrieverは、ドメイン固有の専門的な埋め込みモデルを混在させたルーティングの利点を示す最初の研究である。
論文参考訳（メタデータ） (2024-09-04T13:16:55Z)
BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。本稿では,BAM(Branch-Attend-Mix)を提案する。 5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文参考訳（メタデータ） (2024-08-15T17:19:12Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。