論文の概要: Circinus: Efficient Query Planner for Compound ML Serving
- arxiv url: http://arxiv.org/abs/2504.16397v1
- Date: Wed, 23 Apr 2025 03:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.990747
- Title: Circinus: Efficient Query Planner for Compound ML Serving
- Title(参考訳): Circinus: 複合MLサービングのための効率的なクエリプランナ
- Authors: Banruo Liu, Wei-Yu Lin, Minghao Fang, Yihan Jiang, Fan Lai,
- Abstract要約: 本稿では,大規模複合AIワークロードを対象としたSLO対応クエリプランナであるCircinusを提案する。
クエリ内およびクエリ間の計画類似性を活用することで、Circinusは検索ステップを大幅に削減する。
評価によると、Circinusはサービス品質を3.2-5.0$times$で改善し、クエリプランニングを4.2-5.8$times$で加速し、クエリレスポンスを数秒で達成している。
- 参考スコア(独自算出の注目度): 3.6295638972280733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of compound AI serving -- integrating multiple operators in a pipeline that may span edge and cloud tiers -- enables end-user applications such as autonomous driving, generative AI-powered meeting companions, and immersive gaming. Achieving high service goodput -- i.e., meeting service level objectives (SLOs) for pipeline latency, accuracy, and costs -- requires effective planning of operator placement, configuration, and resource allocation across infrastructure tiers. However, the diverse SLO requirements, varying edge capabilities, and high query volumes create an enormous planning search space, rendering current solutions fundamentally limited for real-time serving and cost-efficient deployments. This paper presents Circinus, an SLO-aware query planner for large-scale compound AI workloads. Circinus novelly decomposes multi-query planning and multi-dimensional SLO objectives while preserving global decision quality. By exploiting plan similarities within and across queries, it significantly reduces search steps. It further improves per-step efficiency with a precision-aware plan profiler that incrementally profiles and strategically applies early stopping based on imprecise estimates of plan performance. At scale, Circinus selects query-plan combinations to maximize global SLO goodput. Evaluations in real-world settings show that Circinus improves service goodput by 3.2-5.0$\times$, accelerates query planning by 4.2-5.8$\times$, achieving query response in seconds, while reducing deployment costs by 3.2-4.0$\times$ over state of the arts even in their intended single-tier deployments.
- Abstract(参考訳): エッジ層とクラウド層にまたがるパイプラインに複数のオペレータを統合する、複合AIサービスの台頭により、自律運転、生成AIによるミーティングコンパニオン、没入型ゲームといったエンドユーザアプリケーションが可能になる。
パイプラインのレイテンシ、正確性、コストに対するサービスレベル目標(SLO)の達成には、運用担当者の配置、構成、リソース割り当ての効果的な計画が必要です。
しかし、多様なSLO要件、さまざまなエッジ機能、高いクエリボリュームは、膨大な計画的な検索スペースを生み出し、現在のソリューションは、リアルタイムサービスとコスト効率のデプロイメントに基本的に制限されている。
本稿では,大規模複合AIワークロードを対象としたSLO対応クエリプランナであるCircinusを提案する。
Circinusは、グローバルな意思決定品質を維持しながら、マルチクエリ計画と多次元SLOの目的を新たに分解する。
クエリ内およびクエリ間の計画類似性を活用することで、検索ステップを大幅に削減する。
さらに、計画性能の不正確な推定に基づいて、段階的にプロファイリングを行い、早期停止を戦略的に適用する精度対応プランプロファイラにより、ステップごとの効率をさらに向上する。
大規模では、CircinusはグローバルなSLO出力を最大化するためにクエリプランの組み合わせを選択する。
実世界の環境での評価によると、Circinusはサービス品質を3.2-5.0$\times$で改善し、クエリプランニングを4.2-5.8$\times$で加速し、クエリレスポンスを秒で達成し、デプロイコストを3.2-4.0$\times$で削減する。
関連論文リスト
- Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。
本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Automating High Quality RT Planning at Scale [4.660056689223253]
高品質な処理計画を生成するスケーラブルなソリューションであるAIRTP(Automated Iterative RT Planning)システムを紹介した。
当社のAIRTPパイプラインは,OAR(Organ-at-risk Contouring),ヘルパー構造生成,ビーム設定,最適化,計画品質改善など,臨床ガイドラインに準拠し,重要なステップを自動化します。
計画品質の比較分析により、自動パイプラインが手作業で生成されたものと同等の品質の処理計画を生成することが明らかになった。
論文 参考訳(メタデータ) (2025-01-21T00:44:18Z) - Distilling Multi-modal Large Language Models for Autonomous Driving [64.63127269187814]
近年のエンド・ツー・エンドの自動運転システムは,大規模言語モデル(LLM)をプランナーとして活用し,レアイベントに対する一般化性を向上させる。
我々は,LLMの世界の知識を活用しつつ,LLMフリー(あるいはビジョンベース)プランナの効率を維持するエンド・ツー・エンドの自動運転システムであるDiMAを提案する。
DiMAを用いたトレーニングでは、L2軌道誤差が37%減少し、ビジョンベースプランナーの衝突速度が80%低下し、ロングテールシナリオでは44%軌道誤差が減少する。
論文 参考訳(メタデータ) (2025-01-16T18:59:53Z) - SCoTT: Wireless-Aware Path Planning with Vision Language Models and Strategic Chains-of-Thought [78.53885607559958]
複雑な無線環境における経路計画を実現するために,視覚言語モデル(VLM)を用いた新しい手法を提案する。
この目的のために、実世界の無線レイトレーシングデータを用いたデジタルツインからの洞察を探索する。
その結果, SCoTT はDP-WA* と比較して非常に近い平均経路ゲインを実現し, 同時に一貫した経路長が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - CATP-LLM: Empowering Large Language Models for Cost-Aware Tool Planning [43.13654681136326]
コスト対応ツール計画のためのLCM(CATP-LLM)フレームワークを提案する。
LLMは、効率的な並行ツールの実行とコスト削減のために、複数のブランチの非逐次計画を生成するために、LLMを強化するためのツール計画言語を組み込んでいる。
OpenCATPの実験では、Llama2-7Bを背骨として使用しても、CATP-LLMはGPT-4より優れていることが示されている。
論文 参考訳(メタデータ) (2024-11-25T12:05:49Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference
Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。
SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文 参考訳(メタデータ) (2023-04-21T11:19:49Z) - A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。
大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠
選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文 参考訳(メタデータ) (2023-03-01T11:54:22Z) - Innovations in the field of on-board scheduling technologies [64.41511459132334]
本稿では、ミッション自律のためのソフトウェアフレームワークに組み込まれた、オンボードスケジューラを提案する。
スケジューラは線形整数プログラミングに基づいており、ブランチ・アンド・カット・ソルバの使用に依存している。
この技術は地球観測のシナリオでテストされており、その性能を最先端のスケジューリング技術と比較している。
論文 参考訳(メタデータ) (2022-05-04T12:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。