Fugu-MT 論文翻訳(概要): Building Heterogeneous Cloud System for Machine Learning Inference

論文の概要: Building Heterogeneous Cloud System for Machine Learning Inference

arxiv url: http://arxiv.org/abs/2210.05889v1
Date: Wed, 12 Oct 2022 03:06:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 15:48:50.016573
Title: Building Heterogeneous Cloud System for Machine Learning Inference
Title（参考訳）: 機械学習推論のための異種クラウドシステムの構築
Authors: Baolin Li, Siddharth Samsi, Vijay Gadepally, Devesh Tiwari
Abstract要約: KAIROSは、目標達成時のクエリスループットとコスト予算を最大化する、新しいランタイムフレームワークである。産業レベルのディープラーニング(DL)モデルを用いて評価した結果,KAIROSは最適均一解のスループットを最大2倍に向上することがわかった。
参考スコア（独自算出の注目度）: 10.462798429064277
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Online inference is becoming a key service product for many businesses, deployed in cloud platforms to meet customer demands. Despite their revenue-generation capability, these services need to operate under tight Quality-of-Service (QoS) and cost budget constraints. This paper introduces KAIROS, a novel runtime framework that maximizes the query throughput while meeting QoS target and a cost budget. KAIROS designs and implements novel techniques to build a pool of heterogeneous compute hardware without online exploration overhead, and distribute inference queries optimally at runtime. Our evaluation using industry-grade deep learning (DL) models shows that KAIROS yields up to 2X the throughput of an optimal homogeneous solution, and outperforms state-of-the-art schemes by up to 70\%, despite advantageous implementations of the competing schemes to ignore their exploration overhead.
Abstract（参考訳）: オンライン推論は、顧客要求を満たすためにクラウドプラットフォームにデプロイされた、多くのビジネスにとって重要なサービス製品になりつつある。収益生成能力にもかかわらず、これらのサービスはqos(quality-of-service)とコスト予算の制約の下で運用する必要があります。本稿では,QoSターゲットとコスト予算を満たしながらクエリスループットを最大化する,新しいランタイムフレームワークであるKAIROSを紹介する。 KAIROSは、オンライン探索のオーバーヘッドを伴わずに不均一な計算ハードウェアのプールを構築し、実行時に推論クエリを最適に分散する新しい技術の設計と実装を行っている。産業グレードのディープラーニング(DL)モデルを用いた評価では,KAIROSは最適均一解のスループットを最大2倍に向上し,探索オーバーヘッドを無視するために競合するスキームの有利な実装にもかかわらず,最先端のスキームを最大70%上回っている。

関連論文リスト

Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文参考訳（メタデータ） (2025-12-23T03:10:09Z)
LeJOT: An Intelligent Job Cost Orchestration Solution for Databricks Platform [28.16213013287002]
私たちは、DatabricksジョブのためのインテリジェントなジョブコストオーケストレーションフレームワークであるLeJOTを紹介します。 LeJOTは、ワークロードの要求を積極的に予測し、動的にコンピューティングリソースを割り当て、コストを最小化する。我々は,1分間のスケジューリング時間内で,LJOTが平均20%のクラウドコンピューティングコスト削減を実現していることを示す。
論文参考訳（メタデータ） (2025-12-20T08:09:58Z)
A Cost-Benefit Analysis of On-Premise Large Language Model Deployment: Breaking Even with Commercial LLM Services [3.1395504034135375]
大規模言語モデル(LLM)はますます普及している。 AIを生産性に使いたい組織は、今、重要な決定に直面している。商用のLLMサービスに加入したり、独自のインフラストラクチャ上でモデルをデプロイすることも可能だ。 OpenAI、Anthropic、Googleといったプロバイダのクラウドサービスは、最先端のモデルへの容易にアクセスでき、スケールしやすく、魅力的です。しかし、データプライバシ、サービスプロバイダの切り替えの難しさ、長期運用コストに対する懸念は、オープンソースモデルのローカル展開への関心を惹き付けている。
論文参考訳（メタデータ） (2025-08-30T06:01:53Z)
Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。 AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文参考訳（メタデータ） (2025-05-03T13:55:38Z)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文参考訳（メタデータ） (2025-02-04T03:36:44Z)
Microservice Deployment in Space Computing Power Networks via Robust Reinforcement Learning [43.96374556275842]
低レイテンシ要件を満たすために、信頼性の高いリアルタイムリモートセンシングサービスを提供することが重要である。本稿では、低地球軌道衛星コンステレーション用に設計されたリモートセンシング人工知能アプリケーションデプロイメントフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-08T16:55:04Z)
Decentralized AI: Permissionless LLM Inference on POKT Network [8.68822221491139]
POKT Networkの分散リモートプロシージャコールインフラストラクチャは、2020年にMainNetでローンチして以来、7400億のリクエストを突破している。この論文は、このネットワークのオープンソースでパーミッションレスな設計が、モデル研究者、ハードウェアオペレータ、APIプロバイダ、ユーザ間のインセンティブをどのように調整するかを説明している。
論文参考訳（メタデータ） (2024-05-30T19:50:07Z)
Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文参考訳（メタデータ） (2024-04-22T23:06:42Z)
A Learning-based Incentive Mechanism for Mobile AIGC Service in Decentralized Internet of Vehicles [49.86094523878003]
モバイルAIGCサービスアロケーションのための分散インセンティブ機構を提案する。我々は、AIGCサービスのRSUへの供給と、IoVコンテキスト内のサービスに対するユーザ要求のバランスを見つけるために、マルチエージェントの深層強化学習を採用している。
論文参考訳（メタデータ） (2024-03-29T12:46:07Z)
A Cost-Aware Mechanism for Optimized Resource Provisioning in Cloud Computing [6.369406986434764]
我々は,要求のコスト削減を保証する新しい学習ベースの資源供給手法を提案してきた。我々の手法は要求のほとんどを効率的に適応させ、さらに結果のパフォーマンスは設計目標に合致する。
論文参考訳（メタデータ） (2023-09-20T13:27:30Z)
Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud Computing [73.7522199491117]
量子クラウドコンピューティング(QCC)は、量子コンピューティングリソースを効率的に提供するための有望なアプローチを提供する。ユーザ需要の変動と量子回路の要求は、効率的なリソース供給のために困難である。本稿では、量子コンピューティングとネットワークリソースのプロビジョニングのためのリソース割り当てモデルを提案する。
論文参考訳（メタデータ） (2023-07-25T00:38:46Z)
How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study [57.97785297481162]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文参考訳（メタデータ） (2023-06-05T18:17:37Z)
Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-17T02:12:30Z)
CILP: Co-simulation based Imitation Learner for Dynamic Resource Provisioning in Cloud Computing Environments [13.864161788250856]
レイテンシクリティカルなタスクの主な課題は、積極的にプロビジョニングする将来のワークロード要求を予測することだ。既存のAIベースのソリューションは、プロビジョニングのオーバーヘッド、異種VMコスト、クラウドシステムの品質(QoS)など、すべての重要な側面を公平に考慮しない傾向があります。予測と最適化の2つのサブプロブレムとしてVMプロビジョニング問題を定式化するCILPと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-02-11T09:15:34Z)
RIBBON: Cost-Effective and QoS-Aware Deep Learning Model Inference using a Diverse Pool of Cloud Computing Instances [7.539635201319158]
RIBBONは、新しいディープラーニング推論サービスシステムである。サービス品質(QoS)の目標とコスト効率の2つの競合目標を満たす。
論文参考訳（メタデータ） (2022-07-23T06:45:14Z)
Serving and Optimizing Machine Learning Workflows on Heterogeneous Infrastructures [9.178035808110124]
JellyBeanは、異種インフラストラクチャ上での機械学習推論の提供と最適化のためのフレームワークである。 JellyBeanは、視覚的質問応答のサービスコストを最大58%削減し、NVIDIA AI City Challengeからの車両追跡を最大36%削減する。
論文参考訳（メタデータ） (2022-05-10T07:32:32Z)
Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文参考訳（メタデータ） (2021-06-18T16:23:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。