Fugu-MT 論文翻訳(概要): When Does Deep RL Beat Calibrated Baselines? A Benchmark Study on Adaptive Resource Control

論文の概要: When Does Deep RL Beat Calibrated Baselines? A Benchmark Study on Adaptive Resource Control

arxiv url: http://arxiv.org/abs/2605.26418v1
Date: Tue, 26 May 2026 01:07:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:41.517739
Title: When Does Deep RL Beat Calibrated Baselines? A Benchmark Study on Adaptive Resource Control
Title（参考訳）: ディープRLはいつ基準線に勝つか? : 適応的資源制御のベンチマーク研究
Authors: Guilin Zhang, Chuanyi Sun, Kai Zhao, Shahryar Sarkani, John Fossaceca,
Abstract要約: 適切に調整されたルールベースのオートスケーラは、テスト対象のワークロード毎に6つのメインストリームの深層強化学習(DRL)アルゴリズムのうち、どれか1つを打ち負かすことができる。 PPO, DQN, A2C, SAC, TD3, DDPGを一致したトレーニング予算下で評価し, 基準基準に対する報酬関数について検討した。
参考スコア（独自算出の注目度）: 3.1555521133346685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A properly calibrated rule-based autoscaler can beat every one of six mainstream deep reinforcement learning (DRL) algorithms on cost across every workload we test - so when, if ever, does DRL actually help? We study this in RLScale-Bench, a reproducible benchmark and evaluation protocol for DRL on adaptive resource control, where an agent allocates compute to a dynamic workload under cost and service-level constraints. We evaluate PPO, DQN, A2C, SAC, TD3, and DDPG under matched architectures, training budgets, and reward functions against a calibrated rule-based baseline across six workload patterns and five seeds (240 runs), instantiate the benchmark on Kubernetes Horizontal Pod Autoscaling, and probe distribution-shift generalization. Three findings challenge common assumptions: (i) the calibrated controller achieves the lowest cost on all six workloads, though it trails the best RL agents on bursty and flash traffic; (ii) discrete-action algorithms outperform continuous-action ones by one to two orders of magnitude in constraint violations due to action-space mismatch; and (iii) no single algorithm dominates across workloads, with rankings shifting by up to four positions. The bottleneck in RL-based resource control is not algorithm selection but baseline calibration, reward engineering, and realistic evaluation protocols.
Abstract（参考訳）: 適切に調整されたルールベースのオートスケーラは、テスト対象のワークロード毎に6つの主要なディープ強化学習(DRL)アルゴリズムのうち、どれか1つを打ち負かすことができます。 RLScale-Benchは、DRLの適応的リソース制御のための再現可能なベンチマークおよび評価プロトコルで、エージェントはコストとサービスレベルの制約の下で、動的ワークロードに計算を割り当てる。 PPO,DQN,A2C,SAC,TD3,DDPGを一致したアーキテクチャ下で評価し,6つのワークロードパターンと5つのシード(240ラン)のキャリブレーションされたルールベースベースラインに対して評価し,Kubernetes Horizontal Pod Autoscalingのベンチマークをインスタンス化し,分散シフトの一般化をプローブする。 3つの発見は、一般的な仮定に挑戦する。 (i)キャリブレーションされたコントローラは6つのワークロードで最低コストを達成するが、バーストとフラッシュのトラフィックで最高のRLエージェントを追従する。 (二)離散作用アルゴリズムは、行動空間ミスマッチによる制約違反において、連続作用アルゴリズムを一から二等級に上回り、かつ、 (iii)ワークロード間では1つのアルゴリズムが支配的ではなく、ランキングは最大4ポジションにシフトする。 RLベースのリソース制御のボトルネックは、アルゴリズムの選択ではなく、ベースラインキャリブレーション、報酬工学、現実的な評価プロトコルである。

関連論文リスト

Reinforcement Learning-based Control via Y-wise Affine Neural Networks: Comparative Case Studies for Chemical Processes [0.0]
ケミカルプロセスシステムにおける強化学習(RL)に基づく制御の効率よく実装可能なアプローチを提案する。我々は、Y-wise Affine Neural Network (YANN)-RLと呼ばれるRLアルゴリズムのクラスを利用する。アクターと批評家のネットワークを戦略的に初期化することにより、YANN-RLアルゴリズムは制御スキーム内の確実かつ解釈可能な出発点を提供する。
論文参考訳（メタデータ） (2026-05-20T14:07:02Z)
Agent^2 RL-Bench: Can LLM Agents Engineer Agentic RL Post-Training? [23.212983812736343]
Agent2 RL-BenchはエージェントRLのポストトレーニングを評価するためのベンチマークである。固定予算下では,教師付きパイプラインがエージェント駆動のポストトレーニングを支配していることがわかった。
論文参考訳（メタデータ） (2026-04-12T09:35:27Z)
Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。 CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文参考訳（メタデータ） (2026-02-22T07:23:36Z)
From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。 RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文参考訳（メタデータ） (2025-10-02T01:31:10Z)
Plume: A Framework for High Performance Deep RL Network Controllers via Prioritized Trace Sampling [8.917042313344943]
DRLトレーニングデータセットにおける歪んだ入力トレース分布を自動的に識別し、バランスをとるためのフレームワークPlumeを導入する。本稿では,適応ビットレートストリーミング,混雑制御,負荷分散といった3つのネットワーク環境におけるPlumeの評価を行った。 Plumeは、異なるコントローラとDRLアルゴリズムでシミュレーションと実世界の設定の両方で優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-02-24T02:09:33Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)
LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文参考訳（メタデータ） (2022-09-21T13:21:00Z)
URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。 URLBは2つのフェーズで構成されている。評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文参考訳（メタデータ） (2021-10-28T15:07:01Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。