論文の概要: Cluster Topology-Driven Placement of Experts Reduces Network Traffic in MoE Inference
- arxiv url: http://arxiv.org/abs/2508.09229v1
- Date: Tue, 12 Aug 2025 07:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.639147
- Title: Cluster Topology-Driven Placement of Experts Reduces Network Traffic in MoE Inference
- Title(参考訳): クラスタトポロジによる専門家の配置によるMoE推論におけるネットワークトラフィック削減
- Authors: Danil Sivtsov, Aleksandr Katrutsa, Ivan Oseledets,
- Abstract要約: 提案する整数線形プログラム(ILP)は,期待される送信数を最小限に抑え,専門家の最適な配置を決定する。
ILPベースの配置戦略は,小型モデル(DeepSeekMoE16B)や大規模モデル(DeepSeek-R1671B)と比較してネットワークトラフィックが低いことを示す。
- 参考スコア(独自算出の注目度): 49.141930185079325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Efficient deployment of a pre-trained LLM to a cluster with multiple servers is a critical step for providing fast responses to users' queries. The recent success of Mixture-of-Experts (MoE) LLMs raises the question of how to deploy them efficiently, considering their underlying structure. During the inference in MoE LLMs, only a small part of the experts is selected to process a given token. Moreover, in practice, the experts' load is highly imbalanced. For efficient deployment, one has to distribute the model across a large number of servers using a model placement algorithm. Thus, to improve cluster utilization, the model placement algorithm has to take into account the network topology. This work focuses on the efficient topology-aware placement of the pre-trained MoE LLMs in the inference stage. We propose an integer linear program (ILP) that determines the optimal placement of experts, minimizing the expected number of transmissions. Due to the internal structure, this optimization problem can be solved with a standard ILP solver. We demonstrate that ILP-based placement strategy yields lower network traffic than competitors for small-scale (DeepSeekMoE~16B) and large-scale (DeepSeek-R1~671B) models.
- Abstract(参考訳): トレーニング済みのLLMを複数のサーバを持つクラスタに効率的にデプロイすることは、ユーザのクエリに対する迅速な応答を提供するための重要なステップである。
最近のMixture-of-Experts (MoE) LLMの成功は、その基盤構造を考慮して、どのように効率的にデプロイするかという疑問を提起している。
MoE LLMの推論では、専門家のごく一部だけが所定のトークンを処理するために選択される。
さらに、実際には専門家の負荷は極めて不均衡である。
効率的なデプロイメントには、モデル配置アルゴリズムを使用して、モデルを多数のサーバに分散する必要がある。
したがって、クラスタ利用を改善するために、モデル配置アルゴリズムはネットワークトポロジを考慮に入れなければならない。
本研究は,事前学習したMoE LLMの推論段階における効率的なトポロジ対応配置に焦点をあてる。
提案する整数線形プログラム(ILP)は,期待される送信数を最小限に抑え,専門家の最適な配置を決定する。
内部構造のため、この最適化問題は標準のICPソルバで解くことができる。
ILPベースの配置戦略は、小規模(DeepSeekMoE~16B)や大規模(DeepSeek-R1~671B)モデルと比較してネットワークトラフィックが低いことを示す。
関連論文リスト
- Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。
LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。
実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-15T12:14:16Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - NetLLM: Adapting Large Language Models for Networking [36.61572542761661]
我々は,ネットワーク問題を解決するために低努力でLLMの強力な能力を活用するためのコヒーレントな設計を提供する最初のフレームワークであるNetLLMを紹介する。
具体的には、NetLLMはLLMにネットワーク上のマルチモーダルデータを効果的に処理し、タスク固有の回答を効率的に生成する権限を与える。
論文 参考訳(メタデータ) (2024-02-04T04:21:34Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。