論文の概要: SAIR: Cost-Efficient Multi-Stage ML Pipeline Autoscaling via In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.22397v1
- Date: Thu, 29 Jan 2026 23:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.116208
- Title: SAIR: Cost-Efficient Multi-Stage ML Pipeline Autoscaling via In-Context Reinforcement Learning
- Title(参考訳): SAIR: インコンテキスト強化学習による費用対効果の高いマルチステージMLパイプライン自動スケーリング
- Authors: Jianchang Su, Yifan Zhang, Shengkai Lin, Shizhen Zhao, Yusheng Zheng, Yiwei Yang, Wei Zhang,
- Abstract要約: マルチステージML推論パイプラインは、異種リソース、クロスステージ結合、動的ボトルネックマイグレーションによる自動スケールが難しい。
本稿では,LLMをテキスト内強化学習コントローラとして使用する自動スケーリングフレームワークであるSAIRを提案する。
SAIRはデプロイベースライン間で最高のあるいは結びついたP99レイテンシと効果的なリソースコストを実現し、P99を最大50%改善し、有効コストを最大97%削減する。
- 参考スコア(独自算出の注目度): 13.174004826305255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-stage ML inference pipelines are difficult to autoscale due to heterogeneous resources, cross-stage coupling, and dynamic bottleneck migration. We present SAIR, an autoscaling framework that uses an LLM as an in-context reinforcement learning controller, improving its policy online from reward-labeled interaction histories without gradient updates. SAIR combines Pareto-dominance reward shaping with a provable separation margin, surprisal-guided experience retrieval for context efficiency, and fine-grained GPU rate control via user-space CUDA interception. We provide regret analysis decomposing error into retrieval coverage and LLM selection components. On four ML serving pipelines under three workload patterns, SAIR achieves the best or tied-best P99 latency and effective resource cost among deployed baselines, improving P99 by up to 50% and reducing effective cost by up to 97% (under GPU rate-control assumptions), with 86% bottleneck detection accuracy and no offline training.
- Abstract(参考訳): マルチステージML推論パイプラインは、異種リソース、クロスステージ結合、動的ボトルネックマイグレーションによる自動スケールが難しい。
本稿では,LLMをコンテキスト内強化学習コントローラとして使用する自動スケーリングフレームワークであるSAIRについて述べる。
SAIRは、Pareto-dominance報酬のシェーピングと、証明可能な分離マージン、コンテキスト効率のための先導的なエクスペリエンス検索、ユーザ空間CUDAインターセプションによるきめ細かいGPUレート制御を組み合わせたものだ。
検索カバレッジとLLM選択コンポーネントにエラーを分解する後悔の解析を行う。
3つのワークロードパターンの下の4つのMLサービスパイプラインでは、SAIRはデプロイベースライン間で最高のあるいは結びつきのあるP99レイテンシと効果的なリソースコストを実現し、P99を最大50%改善し、有効コストを最大97%削減する(GPU速度制御の前提下では)。
関連論文リスト
- How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains [2.1797343876622097]
強化学習(RL)の先行する言語モデル(LLM)には大きな利点があるが、かなりの計算コストが伴う。
本稿では,LCMをベースとした後方サンプリングのためのキャッシュ効率向上フレームワークを提案し,性能を向上しつつ,これらのコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-12T06:53:24Z) - Efficiently Deploying LLMs with Controlled Risk [0.9208007322096532]
モデル内不確実性を利用してクエリをデリゲートする,階層型連鎖とマルチレベルアプテンション(HCMA)を提案する。
我々の枠組みは、効率とリスクの間に新たなトレードオフをもたらす。
論文 参考訳(メタデータ) (2024-10-03T03:25:56Z) - Parallel Split Learning with Global Sampling [9.57839529462706]
クライアント側バッチサイズを動的に調整することで,グローバルバッチサイズを一定に保つサーバ駆動サンプリング戦略を導入する。
これにより、参加するデバイスの数から有効なバッチサイズを分離し、グローバルなバッチが全体のデータ分散をよりよく反映できるようにする。
ベンチマークデータセットにおける実験結果から,提案手法はモデルの精度,訓練効率,収束安定性を向上することを確認した。
論文 参考訳(メタデータ) (2024-07-22T15:41:23Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。