論文の概要: CoServe: Efficient Collaboration-of-Experts (CoE) Model Inference with Limited Memory
- arxiv url: http://arxiv.org/abs/2503.02354v2
- Date: Thu, 10 Apr 2025 04:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-12 00:13:50.394492
- Title: CoServe: Efficient Collaboration-of-Experts (CoE) Model Inference with Limited Memory
- Title(参考訳): CoServe: メモリ制限付き効率的なコラボレーション・オブ・エクササイズ(CoE)モデル推論
- Authors: Jiashun Suo, Xiaojian Liao, Limin Xiao, Li Ruan, Jinquan Wang, Xiao Su, Zhisheng Huo,
- Abstract要約: GPT-4のような大規模言語モデルは資源集約型であるが、近年の進歩により、より小さな専門的な専門家が特定のタスクにおいてそれらより優れていることが示唆されている。
Collaboration-of-Expertsアプローチは、複数のエキスパートモデルを統合し、生成された結果の精度を改善し、精度クリティカルなアプリケーションに対して大きなポテンシャルを提供する。
メモリが制限された異種CPUおよびGPU上での効率的なCoEモデルサービスシステムであるCoServeを提案する。
- 参考スコア(独自算出の注目度): 3.3525857078268824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models like GPT-4 are resource-intensive, but recent advancements suggest that smaller, specialized experts can outperform the monolithic models on specific tasks. The Collaboration-of-Experts (CoE) approach integrates multiple expert models, improving the accuracy of generated results and offering great potential for precision-critical applications, such as automatic circuit board quality inspection. However, deploying CoE serving systems presents challenges to memory capacity due to the large number of experts required, which can lead to significant performance overhead from frequent expert switching across different memory and storage tiers. We propose CoServe, an efficient CoE model serving system on heterogeneous CPU and GPU with limited memory. CoServe reduces unnecessary expert switching by leveraging expert dependency, a key property of CoE inference. CoServe introduces a dependency-aware request scheduler and dependency-aware expert management for efficient inference. It also introduces an offline profiler to automatically find optimal resource allocation on various processors and devices. In real-world intelligent manufacturing workloads, CoServe achieves 4.5$\times$ to 12$\times$ higher throughput compared to state-of-the-art systems.
- Abstract(参考訳): GPT-4のような大規模言語モデルはリソース集約的だが、最近の進歩は、より小さな専門の専門家が特定のタスクにおいてモノリシックモデルより優れていることを示唆している。
CoE(Collaboration-of-Experts)アプローチは、複数のエキスパートモデルを統合し、生成された結果の精度を改善し、自動回路基板の品質検査のような精度クリティカルなアプリケーションに大きな可能性を提供する。
しかし、CoEサービスシステムのデプロイは、大量の専門家が必要であり、異なるメモリとストレージ層を頻繁に切り替えることから、大幅なパフォーマンスオーバーヘッドを引き起こす可能性があるため、メモリ容量に課題をもたらす。
メモリが制限された異種CPUおよびGPU上での効率的なCoEモデルサービスシステムであるCoServeを提案する。
CoServeは、専門家の依存関係を活用することで、不要な専門家の切り替えを減らす。
CoServeでは、効率的な推論のための依存性対応のリクエストスケジューラと依存性対応のエキスパート管理を導入している。
また、オフラインプロファイラを導入し、様々なプロセッサやデバイス上で最適なリソース割り当てを自動的に見つける。
現実世界のインテリジェントな製造ワークロードでは、CoServeは、最先端システムと比較して4.5$\times$から12$\times$高スループットを実現している。
関連論文リスト
- Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - MECAD: A multi-expert architecture for continual anomaly detection [2.119546870623332]
マルチエキスパートアーキテクチャを用いた連続的異常検出のための新しいアプローチMECADを提案する。
本システムでは,特徴の類似性に基づいて,専門家をオブジェクトクラスに動的に割り当て,メモリ管理の効率化により,これまで見てきたクラスの知識を保存している。
論文 参考訳(メタデータ) (2025-12-17T11:18:38Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Enabling MoE on the Edge via Importance-Driven Expert Scheduling [21.860330824352527]
MoEは、クエリ毎に専門家のサブセットだけをアクティベートすることで、大規模言語モデルをスケールするための重要なテクニックである。
専門家の重要さを活用して意思決定をガイドし、GPUメモリにすでにキャッシュされている機能的に類似した専門家を、低キャッシュのアクティベートした専門家に置き換えます。
この設計はメモリ使用量とデータ転送量を削減し、PCIeのオーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-08-26T12:32:09Z) - Efficient Training of Large-Scale AI Models Through Federated Mixture-of-Experts: A System-Level Approach [52.79991638077892]
この記事では、動的クライアント-専門家のアライメントのための堅牢な定量的戦略が欠如しているという、批判的だが未調査のコンセプトを強調します。
本稿では,動的適合度スコアリング,グローバルエキスパート負荷監視,クライアントのキャパシティ・プロファイリングを取り入れた,インテリジェントなクライアント-エキスパートアライメントのためのシステム設計を提案する。
論文 参考訳(メタデータ) (2025-07-08T05:30:37Z) - MoE-MLoRA for Multi-Domain CTR Prediction: Efficient Adaptation with Expert Specialization [0.0]
MoE-MLoRAはエキスパートの混成フレームワークで、各専門家はドメインを専門にするために独立して訓練される。
MoE-MLoRAはMovielensとTaobaoの8つのCTRモデルで評価した。
論文 参考訳(メタデータ) (2025-06-09T09:03:05Z) - Co-Saving: Resource Aware Multi-Agent Collaboration for Software Development [65.94639060883475]
本稿では,リソースを意識したマルチエージェントシステムであるCo-Savingを提案する。
私たちの重要なイノベーションは、"ショートカット"の導入です。
最先端のMAS ChatDevと比較して,トークン使用量の平均50.85%の削減を実現している。
論文 参考訳(メタデータ) (2025-05-28T02:23:53Z) - Patchwork: A Unified Framework for RAG Serving [6.430565435912026]
Retrieval Augmented Generation (RAG) は、外部知識ソースとの統合による大規模言語モデルの信頼性向上のための新しいパラダイムとして登場した。
Patchworkは、これらの効率のボトルネックに対処するために設計された、包括的なエンドツーエンドのRAGサービスフレームワークです。
論文 参考訳(メタデータ) (2025-05-01T18:58:26Z) - AIDE: Agentically Improve Visual Language Model with Domain Experts [39.34183197101934]
AIDE(Agentic Improvement through Domain Experts)は、Visual Language Modelsが自律的に機能を強化することを可能にする新しいフレームワークである。
AIDEは、(1)洗練のためのインスタンスの識別、(2)対象分析のためのドメインエキスパートの関与、(3)既存のデータによるエキスパートアウトプットの合成、(4)強化されたインスタンスをトレーニングパイプラインに統合する4段階のプロセスで運用されている。
論文 参考訳(メタデータ) (2025-02-13T08:05:44Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - CCoE: A Compact and Efficient LLM Framework with Multi-Expert Collaboration for Resource-Limited Settings [7.235624908811974]
大規模言語モデル(LLM)は、大規模なデータセットのトレーニングを通じて、さまざまなドメインで例外的なパフォーマンスを実現している。
CCoEアーキテクチャは、ドメイン固有の専門家をシームレスに統合したLLMに統合するモジュラーフレームワークである。
CCoEは最先端のパフォーマンスを実現し、マルチエキスパートデプロイメントのリソース要件を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-16T13:03:58Z) - Performance Characterization of Expert Router for Scalable LLM Inference [0.4726677580049183]
大規模言語モデル(LLM)は、科学や産業の領域で広く採用されている。
最適なスループットとレイテンシで、これらのモデルを大規模にデプロイし、提供することは、依然として大きな課題です。
本稿では、専門的な専門家モデルに向け、スケーラブルなルーティングアーキテクチャであるExpert Routerを紹介する。
論文 参考訳(メタデータ) (2024-04-22T16:33:42Z) - See More Details: Efficient Image Super-Resolution by Experts Mining [79.35310245195402]
本稿では,エキスパートマイニングを用いた効率的なSRモデルであるSeemoReを紹介する。
当社のアプローチは、さまざまなレベルの専門家を戦略的に取り入れ、協調的な方法論を採用しています。
正確なSRに欠かせない重要な要素を専門に扱うことで、我々のモデルは複雑な機能内詳細を明らかにすることに長けています。
論文 参考訳(メタデータ) (2024-02-05T16:11:04Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文 参考訳(メタデータ) (2022-10-17T07:36:18Z) - RecPipe: Co-designing Models and Hardware to Jointly Optimize
Recommendation Quality and Performance [6.489720534548981]
RecPipeは、推奨品質と推論性能を共同で最適化するシステムである。
RPAccelは、品質、テールレイテンシ、システムスループットを共同で最適化するカスタムアクセラレータである。
論文 参考訳(メタデータ) (2021-05-18T20:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。