論文の概要: HybridServe: Efficient Serving of Large AI Models with Confidence-Based Cascade Routing
- arxiv url: http://arxiv.org/abs/2505.12566v1
- Date: Sun, 18 May 2025 22:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.309986
- Title: HybridServe: Efficient Serving of Large AI Models with Confidence-Based Cascade Routing
- Title(参考訳): HybridServe: 信頼性ベースのカスケードルーティングを備えた大規模AIモデルの効率的な実行
- Authors: Leyang Xue, Yao Fu, Luo Mai, Mahesh K. Marina,
- Abstract要約: 我々は,巨大ディープニューラルネットワーク(DNN)のための新しいハイブリッドモデルサービスシステムであるHybridServeを提案する。
HybridServeは、精度が損なわれない限り、エネルギー効率の良いより小さなモデルで推論要求を提供するのを好む。
現状のDNNモデルサービスシステムと比較して,エネルギーフットプリントを最大19.8倍削減することを示す。
- 参考スコア(独自算出の注目度): 18.00696709787761
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Giant Deep Neural Networks (DNNs), have become indispensable for accurate and robust support of large-scale cloud based AI services. However, serving giant DNNs is prohibitively expensive from an energy consumption viewpoint easily exceeding that of training, due to the enormous scale of GPU clusters needed to hold giant DNN model partitions and replicas. Existing approaches can either optimize energy efficiency or inference accuracy but not both. To overcome this status quo, we propose HybridServe, a novel hybrid DNN model serving system that leverages multiple sized versions (small to giant) of the model to be served in tandem. Through a confidence based hybrid model serving dataflow, HybridServe prefers to serve inference requests with energy-efficient smaller models so long as accuracy is not compromised, thereby reducing the number of replicas needed for giant DNNs. HybridServe also features a dataflow planner for efficient partitioning and replication of candidate models to maximize serving system throughput. Experimental results using a prototype implementation of HybridServe show that it reduces energy footprint by up to 19.8x compared to the state-of-the-art DNN model serving systems while matching the accuracy of serving solely with giant DNNs.
- Abstract(参考訳): 大規模クラウドベースのAIサービスの正確で堅牢なサポートには,巨大ディープニューラルネットワーク(DNN)が不可欠だ。
しかし、巨大なDNNモデルパーティションとレプリカを保持するのに必要な膨大なGPUクラスタのため、巨大なDNNを提供するのは、トレーニングの時間を超えるエネルギー消費の観点からは違法にコストがかかる。
既存のアプローチはエネルギー効率を最適化するか、推論の精度を最適化できるが、両方ではない。
この現状を克服するため,HybridServeを提案する。HybridServeは,タンデムで提供されるモデルの複数サイズバージョン(小型から巨大)を利用する,新しいハイブリッドDNNモデルサービスシステムである。
データフローを提供する信頼性ベースのハイブリッドモデルを通じて、HybridServeは、精度が損なわれない限り、エネルギー効率の良いより小さなモデルで推論要求を提供することを好んでおり、巨大なDNNに必要なレプリカの数を減らすことができる。
HybridServeはまた、運用システムのスループットを最大化するために、候補モデルの効率的なパーティショニングとレプリケーションのためのデータフロープランナも備えている。
HybridServeのプロトタイプ実装による実験結果から、最先端のDNNモデルサービスシステムと比較してエネルギーフットプリントを最大19.8倍削減し、巨大なDNNのみにサービスする精度に適合することが示された。
関連論文リスト
- FusedInf: Efficient Swapping of DNN Models for On-Demand Serverless Inference Services on the Edge [2.1119495676190128]
我々はFusedInfを導入し、エッジ上のオンデマンドサーバレス推論サービスにDNNモデルを効率よく置き換える。
DNNモデルを評価した結果,単一のDAGを作成すれば,モデルの実行が最大14%高速化できることがわかった。
論文 参考訳(メタデータ) (2024-10-28T15:21:23Z) - Dual-Model Distillation for Efficient Action Classification with Hybrid Edge-Cloud Solution [1.8029479474051309]
我々は、より大規模で正確なクラウドベースモデルに必要に応じて遅延しながら、より小さなモデルのローカル処理効率を活用するハイブリッドエッジクラウドソリューションを設計する。
具体的には、エッジモデルの出力が不確かである場合に予測可能な軽量スイッチャーモデルをトレーニングするための、新しい教師なしデータ生成手法であるDual-Model Distillation(DMD)を提案する。
動作分類タスクの実験結果から,我々のフレームワークは計算オーバーヘッドを少なくするだけでなく,大規模モデルのみを使用する場合と比較して精度も向上することが示された。
論文 参考訳(メタデータ) (2024-10-16T02:06:27Z) - Hybrid SD: Edge-Cloud Collaborative Inference for Stable Diffusion Models [6.015486729281141]
エッジクラウド協調推論のためのトレーニング不要なSDM推論フレームワークであるHybrid SDを紹介する。
画像品質の競争力のあるエッジデバイス上で, 最先端パラメータ効率(225.8M)が得られることを示す。
ハイブリッドSDは、エッジクラウドのコラボレーティブ推論により、クラウドコストを66%削減する。
論文 参考訳(メタデータ) (2024-08-13T05:30:41Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - NASOA: Towards Faster Task-oriented Online Fine-tuning with a Zoo of
Models [90.6485663020735]
事前訓練されたImageNetモデルからの微調整は、様々なコンピュータビジョンタスクに対して単純で効果的で一般的なアプローチである。
我々は,タスク指向のより高速な微調整を実現するため,NASOAというニューラルアーキテクチャ検索とオンライン適応フレームワークを共同で提案する。
論文 参考訳(メタデータ) (2021-08-07T12:03:14Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。