論文の概要: CoServe: Efficient Collaboration-of-Experts (CoE) Model Inference with Limited Memory
- arxiv url: http://arxiv.org/abs/2503.02354v1
- Date: Tue, 04 Mar 2025 07:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:14:31.283401
- Title: CoServe: Efficient Collaboration-of-Experts (CoE) Model Inference with Limited Memory
- Title(参考訳): CoServe: メモリ制限付き効率的なコラボレーション・オブ・エクササイズ(CoE)モデル推論
- Authors: Jiashun Suo, Xiaojian Liao, Limin Xiao, Li Ruan, Jinquan Wang, Xiao Su, Zhisheng Huo,
- Abstract要約: GPT-4のような大規模言語モデルは資源集約型であるが、近年の進歩により、より小さな専門的な専門家が特定のタスクにおいてそれらより優れていることが示唆されている。
Collaboration-of-Expertsアプローチは、複数のエキスパートモデルを統合し、生成された結果の精度を改善し、精度クリティカルなアプリケーションに対して大きなポテンシャルを提供する。
メモリが制限された異種CPUおよびGPU上での効率的なCoEモデルサービスシステムであるCoServeを提案する。
- 参考スコア(独自算出の注目度): 3.3525857078268824
- License:
- Abstract: Large language models like GPT-4 are resource-intensive, but recent advancements suggest that smaller, specialized experts can outperform the monolithic models on specific tasks. The Collaboration-of-Experts (CoE) approach integrates multiple expert models, improving the accuracy of generated results and offering great potential for precision-critical applications, such as automatic circuit board quality inspection. However, deploying CoE serving systems presents challenges to memory capacity due to the large number of experts required, which can lead to significant performance overhead from frequent expert switching across different memory and storage tiers. We propose CoServe, an efficient CoE model serving system on heterogeneous CPU and GPU with limited memory. CoServe reduces unnecessary expert switching by leveraging expert dependency, a key property of CoE inference. CoServe introduces a dependency-aware request scheduler and dependency-aware expert management for efficient inference. It also introduces an offline profiler to automatically find optimal resource allocation on various processors and devices. In real-world intelligent manufacturing workloads, CoServe achieves 4.5$\times$ to 12$\times$ higher throughput compared to state-of-the-art systems.
- Abstract(参考訳): GPT-4のような大規模言語モデルはリソース集約的だが、最近の進歩は、より小さな専門の専門家が特定のタスクにおいてモノリシックモデルより優れていることを示唆している。
CoE(Collaboration-of-Experts)アプローチは、複数のエキスパートモデルを統合し、生成された結果の精度を改善し、自動回路基板の品質検査のような精度クリティカルなアプリケーションに大きな可能性を提供する。
しかし、CoEサービスシステムのデプロイは、大量の専門家が必要であり、異なるメモリとストレージ層を頻繁に切り替えることから、大幅なパフォーマンスオーバーヘッドを引き起こす可能性があるため、メモリ容量に課題をもたらす。
メモリが制限された異種CPUおよびGPU上での効率的なCoEモデルサービスシステムであるCoServeを提案する。
CoServeは、専門家の依存関係を活用することで、不要な専門家の切り替えを減らす。
CoServeでは、効率的な推論のための依存性対応のリクエストスケジューラと依存性対応のエキスパート管理を導入している。
また、オフラインプロファイラを導入し、様々なプロセッサやデバイス上で最適なリソース割り当てを自動的に見つける。
現実世界のインテリジェントな製造ワークロードでは、CoServeは、最先端システムと比較して4.5$\times$から12$\times$高スループットを実現している。
関連論文リスト
- AIDE: Agentically Improve Visual Language Model with Domain Experts [39.34183197101934]
AIDE(Agentic Improvement through Domain Experts)は、Visual Language Modelsが自律的に機能を強化することを可能にする新しいフレームワークである。
AIDEは、(1)洗練のためのインスタンスの識別、(2)対象分析のためのドメインエキスパートの関与、(3)既存のデータによるエキスパートアウトプットの合成、(4)強化されたインスタンスをトレーニングパイプラインに統合する4段階のプロセスで運用されている。
論文 参考訳(メタデータ) (2025-02-13T08:05:44Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - CCoE: A Compact and Efficient LLM Framework with Multi-Expert Collaboration for Resource-Limited Settings [7.235624908811974]
大規模言語モデル(LLM)は、大規模なデータセットのトレーニングを通じて、さまざまなドメインで例外的なパフォーマンスを実現している。
CCoEアーキテクチャは、ドメイン固有の専門家をシームレスに統合したLLMに統合するモジュラーフレームワークである。
CCoEは最先端のパフォーマンスを実現し、マルチエキスパートデプロイメントのリソース要件を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-16T13:03:58Z) - Performance Characterization of Expert Router for Scalable LLM Inference [0.4726677580049183]
大規模言語モデル(LLM)は、科学や産業の領域で広く採用されている。
最適なスループットとレイテンシで、これらのモデルを大規模にデプロイし、提供することは、依然として大きな課題です。
本稿では、専門的な専門家モデルに向け、スケーラブルなルーティングアーキテクチャであるExpert Routerを紹介する。
論文 参考訳(メタデータ) (2024-04-22T16:33:42Z) - See More Details: Efficient Image Super-Resolution by Experts Mining [79.35310245195402]
本稿では,エキスパートマイニングを用いた効率的なSRモデルであるSeemoReを紹介する。
当社のアプローチは、さまざまなレベルの専門家を戦略的に取り入れ、協調的な方法論を採用しています。
正確なSRに欠かせない重要な要素を専門に扱うことで、我々のモデルは複雑な機能内詳細を明らかにすることに長けています。
論文 参考訳(メタデータ) (2024-02-05T16:11:04Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文 参考訳(メタデータ) (2022-10-17T07:36:18Z) - RecPipe: Co-designing Models and Hardware to Jointly Optimize
Recommendation Quality and Performance [6.489720534548981]
RecPipeは、推奨品質と推論性能を共同で最適化するシステムである。
RPAccelは、品質、テールレイテンシ、システムスループットを共同で最適化するカスタムアクセラレータである。
論文 参考訳(メタデータ) (2021-05-18T20:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。