論文の概要: Cache Management for Mixture-of-Experts LLMs -- extended version
- arxiv url: http://arxiv.org/abs/2509.02408v1
- Date: Tue, 02 Sep 2025 15:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.077433
- Title: Cache Management for Mixture-of-Experts LLMs -- extended version
- Title(参考訳): Mixture-of-Experts LLMのキャッシュ管理 -- 拡張バージョン
- Authors: Spyros Angelopoulos, Loris Marchal, Adrien Obrecht, Bertrand Simon,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
LLMのデプロイメントを成功させる上での大きな課題の1つは、メモリ管理である。
我々は,エキスパートマネジメントの最適化をモデルとした新しいページング問題を導入し,研究する。
- 参考スコア(独自算出の注目度): 29.858964433575906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across a variety of tasks. One of the main challenges towards the successful deployment of LLMs is memory management, since they typically involve billions of parameters. To this end, architectures based on Mixture-of-Experts have been proposed, which aim to reduce the size of the parameters that are activated when producing a token. This raises the equally critical issue of efficiently managing the limited cache of the system, in that frequently used experts should be stored in the fast cache rather than in the slower secondary memory. In this work, we introduce and study a new paging problem that models expert management optimization. Our formulation captures both the layered architecture of LLMs and the requirement that experts are cached efficiently. We first present lower bounds on the competitive ratio of both deterministic and randomized algorithms, which show that under mild assumptions, LRU-like policies have good theoretical competitive performance. We then propose a layer-based extension of LRU that is tailored to the problem at hand. Extensive simulations on both synthetic datasets and actual traces of MoE usage show that our algorithm outperforms policies for the classic paging problem, such as the standard LRU.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
LLMのデプロイを成功させる上での大きな課題の1つは、メモリ管理である。
この目的のために、トークンの生成時に活性化されるパラメータのサイズを減らすことを目的として、Mixture-of-Expertsに基づくアーキテクチャが提案されている。
これにより、システムの限られたキャッシュを効率的に管理する上で、同様に重要な問題が発生する。
本研究では,エキスパートマネジメントの最適化をモデル化する新しいページング問題を紹介し,研究する。
我々の定式化は、LCMの階層化アーキテクチャと、専門家が効率的にキャッシュされる要求の両方を捉えます。
まず、決定論的アルゴリズムとランダム化アルゴリズムの両方の競合比について下限を示し、軽度な仮定の下では、LRUライクなポリシーは優れた理論的競合性能を示すことを示す。
次に,LRUのレイヤベース拡張を提案する。
合成データセットと実際のMoE使用履歴の広範なシミュレーションにより、我々のアルゴリズムは標準のLRUのような古典的なページング問題に対するポリシーよりも優れていることが示された。
関連論文リスト
- Cluster Topology-Driven Placement of Experts Reduces Network Traffic in MoE Inference [49.141930185079325]
提案する整数線形プログラム(ILP)は,期待される送信数を最小限に抑え,専門家の最適な配置を決定する。
ILPベースの配置戦略は,小型モデル(DeepSeekMoE16B)や大規模モデル(DeepSeek-R1671B)と比較してネットワークトラフィックが低いことを示す。
論文 参考訳(メタデータ) (2025-08-12T07:08:48Z) - SmartLLMs Scheduler: A Framework for Cost-Effective LLMs Utilization [9.615876932810126]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示している。
多様なタスクにLLMをデプロイするための既存の最適化戦略は、静的スケジューリングに重点を置いている。
本稿では,動的かつ費用対効果の高いスケジューリングソリューションであるSmartLLMs Scheduler (SLS)を提案する。
論文 参考訳(メタデータ) (2025-08-05T09:35:52Z) - LLM4Hint: Leveraging Large Language Models for Hint Recommendation in Offline Query Optimization [7.00597706249493]
本稿では,学習句の一般化を促進するために,Large Language Model(LLM)をどのように組み込むかを検討する。
我々は,中規模のバックボーンLLMを利用してクエリ最適化ヒントを推奨する textbfLLM4Hint を提案する。
論文 参考訳(メタデータ) (2025-07-04T08:32:17Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。