論文の概要: SlimCaching: Edge Caching of Mixture-of-Experts for Distributed Inference
- arxiv url: http://arxiv.org/abs/2507.06567v1
- Date: Wed, 09 Jul 2025 05:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.487176
- Title: SlimCaching: Edge Caching of Mixture-of-Experts for Distributed Inference
- Title(参考訳): SlimCaching: 分散推論のためのMixture-of-Expertのエッジキャッシング
- Authors: Qian Chen, Xianhao Chen, Kaibin Huang,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、入力ごとに関連する専門家の小さなサブセットだけを活性化する。
MoEモデルのエキスパートネットワークの数が多ければ多いほど、エッジデバイスにはかなりのストレージ負荷が伴う。
本稿では,元の問題を一連のサブプロブレムに分解するグリーディ分解法を提案する。
- 参考スコア(独自算出の注目度): 29.49615352723995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models improve the scalability of large language models (LLMs) by activating only a small subset of relevant experts per input. However, the sheer number of expert networks in an MoE model introduces a significant storage burden for an edge device. To address this challenge, we consider a scenario where experts are dispersed within an edge network for distributed inference. Based on the popular Top-$K$ expert selection strategy, we formulate a latency minimization problem by optimizing expert caching on edge servers under storage constraints. When $K=1$, the problem reduces to a monotone submodular maximization problem with knapsack constraints, for which we design a greedy-based algorithm with a $(1 - 1/e)$-approximation guarantee. For the general case where $K\geq1$, expert co-activation within the same MoE layer introduces non-submodularity, causing greedy methods to be ineffective. To tackle this issue, we propose a successive greedy decomposition method to decompose the original problem into a series of subproblems, with each being solved by a dynamic programming approach. Furthermore, we design an accelerated algorithm based on the max-convolution technique to obtain the approximate solution with a provable guarantee in polynomial time. Simulation results on various MoE models demonstrate that our method significantly reduces inference latency compared to existing baselines.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、入力毎に関連する専門家の小さなサブセットだけを活性化することにより、大きな言語モデル(LLM)のスケーラビリティを向上させる。
しかし、MoEモデルのエキスパートネットワークの数が多ければ多いほど、エッジデバイスにかなりのストレージ負荷がかかる。
この課題に対処するために、専門家が分散推論のためにエッジネットワーク内に分散されるシナリオを検討する。
人気の高いTop-K$のエキスパート選択戦略に基づいて,ストレージ制約下でのエッジサーバ上のエキスパートキャッシュを最適化することにより,レイテンシの最小化問題を定式化する。
K=1$のとき、この問題はknapsack制約付き単調部分モジュラー最大化問題に還元される。
K\geq1$ の一般的な場合、同一の MoE 層内でのエキスパートの共活性化は非部分モジュラリティを導入し、欲求的手法は非効率である。
この問題に対処するため、我々は、元の問題を一連のサブプロブレムに分解し、各問題を動的プログラミング手法で解くための逐次グリーディ分解法を提案する。
さらに,最大畳み込み法に基づく高速化アルゴリズムを設計し,多項式時間で保証可能な近似解を求める。
各種MoEモデルのシミュレーション結果から,提案手法は既存のベースラインに比べて推論遅延を大幅に低減することが示された。
関連論文リスト
- Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - Multi-Agent Bayesian Optimization with Coupled Black-Box and Affine
Constraints [21.38692458445459]
ブラックボックス制約と既知のアフィン制約を結合した分散マルチエージェントベイズ最適化の問題について検討する。
単一エージェントの場合と同様の後悔/違反境界を実現するアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2023-10-02T08:07:36Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Diffusion models as plug-and-play priors [98.16404662526101]
我々は、事前の$p(mathbfx)$と補助的な制約である$c(mathbfx,mathbfy)$からなるモデルにおいて、高次元データ$mathbfx$を推論する問題を考える。
拡散モデルの構造は,異なるノイズ量に富んだ定性デノナイジングネットワークを通じて,微分を反復することで近似推論を行うことができる。
論文 参考訳(メタデータ) (2022-06-17T21:11:36Z) - Fast Adaptive Non-Monotone Submodular Maximization Subject to a Knapsack
Constraint [13.357957711519134]
制約されたサブモジュール問題には、パーソナライズされたレコメンデーション、チーム形成、バイラルマーケティングによる収益化など、さまざまな応用が含まれている。
我々は5.83のランダム化近似を達成し、O(n log n)$禁断時間、すなわち少なくとも$n$を他の最先端アルゴリズムよりも高速に実行する単純なグリーディアルゴリズムを提案する。
そこで我々は,非単調な目的に対する最初の定数近似である9-近似を求め,実データと合成データに改良された性能を示すアルゴリズムの実験評価を行った。
論文 参考訳(メタデータ) (2020-07-09T18:15:01Z) - Submodular Bandit Problem Under Multiple Constraints [8.100450025624443]
我々は、$l$knapsacksと$k$-system制約の交わりの下で、部分モジュラーバンディット問題を導入する。
この問題を解決するために,標準あるいは修正された高信頼境界に適応的に焦点をあてる非グレーディアルゴリズムを提案する。
近似比が高速アルゴリズムのそれと一致するような近似後悔の確率の高い上限を提供する。
論文 参考訳(メタデータ) (2020-06-01T01:28:44Z) - Artificial Intelligence Assisted Collaborative Edge Caching in Small
Cell Networks [19.605382256630538]
本稿では、エッジノードにおける異種キャッシュモデルを持つユーザの異種コンテンツ嗜好について考察する。
複雑な制約問題を妥当な時間で効率的に解決する修正粒子群最適化(M-PSO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T10:39:46Z) - GACEM: Generalized Autoregressive Cross Entropy Method for Multi-Modal
Black Box Constraint Satisfaction [69.94831587339539]
本稿では,マスク付き自己回帰ニューラルネットワークを用いて解空間上の均一分布をモデル化するクロスエントロピー法(CEM)を提案する。
我々のアルゴリズムは複雑な解空間を表現でき、様々な異なる解領域を追跡できる。
論文 参考訳(メタデータ) (2020-02-17T20:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。