Fugu-MT 論文翻訳(概要): SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads

論文の概要: SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads

arxiv url: http://arxiv.org/abs/2312.16733v1
Date: Wed, 27 Dec 2023 22:24:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 18:00:52.063828
Title: SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads
Title（参考訳）: SuperServe:予測不能なワークロードに対応する細粒度推論
Authors: Alind Khare, Dhruv Garg, Sukrit Kalra, Snigdha Grandhi, Ion Stoica, Alexey Tumanov
Abstract要約: ML推論サービスシステムは、アプリケーションのレイテンシと精度要件のバランスをとる必要がある。 SubNetActは、レイテンシーと精度のトレードオフ空間にまたがるあらゆるモデルに対して同時に機能することを示す。 SubNetActは、従来の最先端モデルよりもはるかに多くのモデルを提供するために、最大2.6倍のメモリを必要とすることを示す。
参考スコア（独自算出の注目度）: 18.461201610784077
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing deployment of ML models on the critical path of production applications in both datacenter and the edge requires ML inference serving systems to serve these models under unpredictable and bursty request arrival rates. Serving models under such conditions requires these systems to strike a careful balance between the latency and accuracy requirements of the application and the overall efficiency of utilization of scarce resources. State-of-the-art systems resolve this tension by either choosing a static point in the latency-accuracy tradeoff space to serve all requests or load specific models on the critical path of request serving. In this work, we instead resolve this tension by simultaneously serving the entire-range of models spanning the latency-accuracy tradeoff space. Our novel mechanism, SubNetAct, achieves this by carefully inserting specialized operators in weight-shared SuperNetworks. These operators enable SubNetAct to dynamically route requests through the network to meet a latency and accuracy target. SubNetAct requires upto 2.6x lower memory to serve a vastly-higher number of models than prior state-of-the-art. In addition, SubNetAct's near-instantaneous actuation of models unlocks the design space of fine-grained, reactive scheduling policies. We explore the design of one such extremely effective policy, SlackFit and instantiate both SubNetAct and SlackFit in a real system, SuperServe. SuperServe achieves 4.67% higher accuracy for the same SLO attainment and 2.85x higher SLO attainment for the same accuracy on a trace derived from the real-world Microsoft Azure Functions workload and yields the best trade-offs on a wide range of extremely-bursty synthetic traces automatically.
Abstract（参考訳）: データセンタとエッジの両方における運用アプリケーションのクリティカルパスへのMLモデルのデプロイの増加には、予測不能でバースト的な要求到着率の下でこれらのモデルを提供するためのML推論サービスシステムが必要である。このような条件下でモデルを提供するには、これらのシステムに対して、アプリケーションのレイテンシと精度の要件と、希少リソースの利用効率の全体的なバランスを取る必要がある。 State-of-the-artシステムは、すべてのリクエストを処理するために遅延精度トレードオフ空間の静的なポイントを選択するか、リクエスト提供の重要なパスで特定のモデルをロードすることによって、この緊張を解消する。この作業では、レイテンシー-精度トレードオフ空間にまたがるモデルの全範囲を同時に提供することで、この緊張を解消します。我々の新しいメカニズムであるSubNetActは、重み付けされたSuperNetworksに特殊演算子を慎重に挿入することでこれを実現する。これらの演算子により、SubNetActはネットワークを介して動的にリクエストをルーティングし、レイテンシと精度の目標を満たすことができる。 SubNetActは2.6倍のメモリを必要とし、従来の最先端のモデルよりもはるかに多くのモデルを提供する。さらに、subnetactのほぼ瞬時モデルのアクティベーションは、きめ細かなリアクティブスケジューリングポリシーの設計スペースを開放する。このような極めて効果的なポリシーであるSlackFitの設計を検討し、実際のシステムであるSuperServeでSubNetActとSlackFitの両方をインスタンス化する。 SuperServeは、現実世界のMicrosoft Azure Functionsのワークロードから派生したトレースと同じ精度で、同じSLO達成の4.67%、SLO達成の2.85倍の精度を達成した。

関連論文リスト

SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [69.54069477520534]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location [3.348953136575379]
HyGenは、オンラインおよびオフラインワークロードの効率的なコロケーションを可能にする干渉対応LLMサービスシステムである。運用負荷評価の結果,HyGenのスループットは最大3.87倍,オフラインスループットは5.84倍に向上した。
論文参考訳（メタデータ） (2025-01-15T16:32:27Z)
Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文参考訳（メタデータ） (2024-09-02T08:10:51Z)
CascadeServe: Unlocking Model Cascades for Inference Serving [8.39076781907597]
機械学習モデルは、効率的な推論サービスシステムを呼び出して、本番環境にデプロイされることが増えている。効率的な推論提供は、2つの課題により複雑である: (i) MLモデルは計算コストを低減し、 (ii) 実用アプリケーションの要求到着率は頻繁で高精度なバリエーションを持つ。モデルカスケードは、(i) 正確性を維持しながら作業を節約し、(ii) 作業と正確性の間の高精細なトレードオフを露呈し、到着率をリクエストするためのきめ細かい調整を可能にするため、これらの課題に対処する位置にある。
論文参考訳（メタデータ） (2024-06-20T15:47:37Z)
DIET: Customized Slimming for Incompatible Networks in Sequential Recommendation [16.44627200990594]
推奨システムは、頻繁なモバイル要求によるネットワークの混雑を軽減するために、エッジにモデルをデプロイし始める。いくつかの研究はエッジ側とリアルタイムデータの近接を利用して、エッジ固有のモデルを作成するように微調整している。これらの手法は、モデルを最新の状態に保つために、相当量の計算資源と頻繁なネットワーク転送を必要とする。我々は、DIET(IncompatiblE neTworks)のためのカスタマイズされたslImmingフレームワークを提案し、DIETはすべてのデバイスに同じ一般的なバックボーン(潜在的に特定のエッジと互換性のない)をデプロイする。
論文参考訳（メタデータ） (2024-06-13T04:39:16Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
Subgraph Stationary Hardware-Software Inference Co-Design [11.17417275752636]
成長中の研究機関は、機械学習モデルのレイテンシ-正確性トレードオフの改善に重点を置いている。ひとつの静的ポイントが最適でない動的に変化するデプロイメントシナリオで動作しているアプリケーションのケースを作成します。我々は、SushiAccelにおけるSGSの実実装と、どのSubNetを提供するか、何をリアルタイムにキャッシュするかを制御するソフトウェアスケジューラSushiSchedを実装したハードウェア-ソフトウェア共同設計アプローチを採用する。
論文参考訳（メタデータ） (2023-06-21T16:02:52Z)
A Graph Neural Networks based Framework for Topology-Aware Proactive SLA Management in a Latency Critical NFV Application Use-case [0.34376560669160383]
5Gと6Gの最近の進歩は、ネットワークシリーズ(NFV)によって実現される遅延クリティカルなアプリケーションの出現につながっている。本稿では,グラフニューラルネットワーク(GNN)と深層強化学習(DRL)を活用して,効率性と信頼性のトレードオフをバランスさせる,積極的なSLA管理フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-10T23:22:05Z)
NASOA: Towards Faster Task-oriented Online Fine-tuning with a Zoo of Models [90.6485663020735]
事前訓練されたImageNetモデルからの微調整は、様々なコンピュータビジョンタスクに対して単純で効果的で一般的なアプローチである。我々は,タスク指向のより高速な微調整を実現するため,NASOAというニューラルアーキテクチャ検索とオンライン適応フレームワークを共同で提案する。
論文参考訳（メタデータ） (2021-08-07T12:03:14Z)
Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。 AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文参考訳（メタデータ） (2021-06-09T19:23:58Z)
Dynamic Slimmable Network [105.74546828182834]
ダイナミックスリム化システム「ダイナミックスリム化ネットワーク(DS-Net)」を開発。 ds-netは,提案するダブルヘッド動的ゲートによる動的推論機能を備えている。静的圧縮法と最先端の静的および動的モデル圧縮法を一貫して上回っている。
論文参考訳（メタデータ） (2021-03-24T15:25:20Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)
Toward fast and accurate human pose estimation via soft-gated skip connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文参考訳（メタデータ） (2020-02-25T18:51:51Z)
Taurus: A Data Plane Architecture for Per-Packet ML [59.1343317736213]
本稿では,線数推論のためのデータプレーンであるTaurusの設計と実装について述べる。 Taurus スイッチ ASIC の評価は,Taurus がサーバベースコントロールプレーンよりも桁違いに高速に動作することを示す。
論文参考訳（メタデータ） (2020-02-12T09:18:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。