Fugu-MT 論文翻訳(概要): SMDP-Based Dynamic Batching for Improving Responsiveness and Energy Efficiency of Batch Services

論文の概要: SMDP-Based Dynamic Batching for Improving Responsiveness and Energy Efficiency of Batch Services

arxiv url: http://arxiv.org/abs/2501.02181v1
Date: Sat, 04 Jan 2025 04:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:50.906082
Title: SMDP-Based Dynamic Batching for Improving Responsiveness and Energy Efficiency of Batch Services
Title（参考訳）: SMDPに基づく動的バッチ化によるバッチサービスの応答性とエネルギー効率の向上
Authors: Yaodan Xu, Sheng Zhou, Zhisheng Niu,
Abstract要約: 並列コンピューティングリソースは、より大きなバッチサイズで動作する場合の計算効率とエネルギー効率が向上する。オンラインサービスの世界では、より大きなバッチサイズを採用することで、レスポンス時間が長くなる可能性がある。本稿では,レイテンシと効率を微妙にバランスさせる動的スキームを提案する。
参考スコア（独自算出の注目度）: 12.600853777230185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For servers incorporating parallel computing resources, batching is a pivotal technique for providing efficient and economical services at scale. Parallel computing resources exhibit heightened computational and energy efficiency when operating with larger batch sizes. However, in the realm of online services, the adoption of a larger batch size may lead to longer response times. This paper aims to provide a dynamic batching scheme that delicately balances latency and efficiency. The system is modeled as a batch service queue with size-dependent service times. Then, the design of dynamic batching is formulated as a semi-Markov decision process (SMDP) problem, with the objective of minimizing the weighted sum of average response time and average power consumption. A method is proposed to derive an approximate optimal SMDP solution, representing the chosen dynamic batching policy. By introducing an abstract cost to reflect the impact of "tail" states, the space complexity and the time complexity of the procedure can decrease by 63.5% and 98%, respectively. Numerical results showcase the superiority of SMDP-based batching policies across various parameter setups. Additionally, the proposed scheme exhibits noteworthy flexibility in balancing power consumption and latency.
Abstract（参考訳）: 並列コンピューティングリソースを組み込んだサーバの場合、バッチ処理は大規模に効率的かつ経済的サービスを提供するための重要なテクニックである。並列コンピューティングリソースは、より大きなバッチサイズで動作する場合の計算効率とエネルギー効率が向上する。しかし、オンラインサービスの領域では、より大きなバッチサイズを採用することで、レスポンス時間が長くなる可能性がある。本稿では,レイテンシと効率を微妙にバランスさせる動的バッチ方式を提案する。システムはサイズに依存したサービス時間を備えたバッチサービスキューとしてモデル化されている。次に、平均応答時間と平均消費電力の重み付けを最小化する目的で、半マルコフ決定過程(SMDP)問題として動的バッチ化の設計を定式化する。選択した動的バッチ化ポリシを代表とした,近似最適SMDP解を導出する手法を提案する。尾」状態の影響を反映する抽象的なコストを導入することで、手順の空間的複雑さと時間的複雑さをそれぞれ63.5%と98%減少させることができる。数値計算の結果,SMDP ベースのバッチ処理方式が各種パラメータ設定に優越していることが示されている。さらに、提案手法は消費電力と遅延のバランスをとる上で、注目すべき柔軟性を示す。

関連論文リスト

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
Scalable and Cost-Efficient ML Inference: Parallel Batch Processing with Serverless Functions [0.36832029288386137]
本稿では、サーバレスアーキテクチャが大規模ML推論タスクを迅速かつ低コストで実現する方法について検討する。サーバレス並列処理は、モノリシックなアプローチと比較して、同じコストで、実行時間を95%以上削減できることを示した。
論文参考訳（メタデータ） (2025-01-30T15:47:55Z)
LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism [12.521026493432181]
既存の大規模言語モデル(LLM)は、異なるフェーズにおける可変長要求を効率的に提供できない。本稿では,異なる要求と位相の分散に対応するために,新しい並列性パラダイムである弾性列並列性(ESP)を提案する。 LoongServeは、チャンクプレフィルと比較して最大スループットを最大3.85$times$、プリフィルデコードデアグリゲーションと比較して5.81$times$に改善する。
論文参考訳（メタデータ） (2024-04-15T07:45:04Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。 LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文参考訳（メタデータ） (2023-10-23T16:37:59Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
SMDP-Based Dynamic Batching for Efficient Inference on GPU-Based Platforms [14.42787221783853]
本稿では、効率とレイテンシのバランスをとる動的グラフィックポリシーを提供することを目的とする。提案されたソリューションは、消費電力とレイテンシのバランスをとる上で、顕著な柔軟性がある。
論文参考訳（メタデータ） (2023-01-30T13:19:16Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
MCDS: AI Augmented Workflow Scheduling in Mobile Edge Cloud Computing Systems [12.215537834860699]
近年,エッジコンピューティングプラットフォームの低応答時間を利用してアプリケーション品質・オブ・サービス(QoS)を最適化するスケジューリング手法が提案されている。本稿では,Deep Surrogate Models を用いたモンテカルロ学習を用いて,モバイルエッジクラウドコンピューティングシステムにおけるワークフローアプリケーションを効率的にスケジューリングする手法を提案する。
論文参考訳（メタデータ） (2021-12-14T10:00:01Z)
Reinforcement Learning on Computational Resource Allocation of Cloud-based Wireless Networks [22.06811314358283]
IoT(Internet of Things)に使用される無線ネットワークには、主にクラウドベースのコンピューティングと処理が関与することが期待されている。クラウド環境では、プロセスのパフォーマンスを維持しながらエネルギーを節約するために、動的計算資源割り当てが不可欠である。本稿では、この動的計算資源割当問題をマルコフ決定プロセス(MDP)にモデル化し、CPU使用量の動的リソース割当を最適化するためのモデルベース強化学習エージェントを設計する。その結果, エージェントは最適方針に迅速に収束し, 異なる設定で安定して動作し, 性能が良く, あるいは少なくとも等しく動作し, 異なるシナリオでの省エネにおけるベースラインアルゴリズムと比較した。
論文参考訳（メタデータ） (2020-10-10T15:16:26Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。