論文の概要: SOPE: Stabilizing Off-Policy Evaluation for Online RL with Prior Data
- arxiv url: http://arxiv.org/abs/2605.05863v1
- Date: Thu, 07 May 2026 08:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.631472
- Title: SOPE: Stabilizing Off-Policy Evaluation for Online RL with Prior Data
- Title(参考訳): SOPE:事前データによるオンラインRLのオフライン評価の安定化
- Authors: Carlo Romeo, Girolamo Macaluso, Alessandro Sestini, Andrew D. Bagdanov,
- Abstract要約: 本稿では,アクタに整列したオフポリシー評価信号を用いたSOPEを,自動早期停止機構として提案する。
Minariベンチマークスイートから25の継続的制御タスクを評価した。
SOPEはベースライン性能を最大45.6%改善し、必要なTFLOPを最大22倍改善した。
- 参考スコア(独自算出の注目度): 49.370849653460716
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Incorporating prior data into online reinforcement learning accelerates training but typically forces a difficult trade-off between high computational costs and long, multi-stage training pipelines. While fixed-length stabilization phases are significantly more computationally efficient than static update schedules, they require task-dependent manual tuning, risking either the waste of prior knowledge or severe overfitting. To address this, we propose SOPE, an algorithm that uses an actor-aligned Off-Policy Policy Evaluation (OPE) signal as an automated early-stopping mechanism to dynamically control the length of offline training phases. By evaluating the critic on a held-out validation split under the current policy's action distribution, SOPE halts gradient updates exactly when out-of-distribution benefits saturate, eliminating the need for manual schedule tuning. Evaluated on 25 continuous control tasks from the Minari benchmark suite, SOPE improves baseline performance by up to 45.6% while reducing the required TFLOPs by up to 22x, thus balancing the tradeoff between sample and computational efficiency. These findings demonstrate that adaptive, evaluation-driven update schedules are more effective than relying on static, exhaustive update schedules.
- Abstract(参考訳): オンライン強化学習に事前データを組み込むことは、トレーニングを加速させるが、通常、高い計算コストと長期のマルチステージトレーニングパイプラインとのトレードオフを難しくする。
固定長安定化フェーズは静的更新スケジュールよりも計算効率がかなり高いが、タスク依存手動チューニングが必要であり、事前知識の浪費や過度なオーバーフィッティングのリスクがある。
そこで本研究では,アクター対応のOff-Policy Policy Evaluation (OPE)信号を自動早期停止機構として利用し,オフライントレーニングフェーズの長さを動的に制御するアルゴリズムSOPEを提案する。
現行の方針の行動分布下での保留検証の分割に関する批判を評価することで、SOPEは配布外利益が飽和した時に正確に勾配更新を停止し、手動のスケジュール調整の必要性をなくす。
ミナリベンチマークスイートから25の連続制御タスクを評価すると、SOPEはベースライン性能を最大45.6%改善し、必要なTFLOPを最大22倍削減し、サンプルと計算効率のトレードオフをバランスさせる。
これらの結果は、静的で徹底的な更新スケジュールに依存するよりも、適応的で評価駆動の更新スケジュールの方が効果的であることを示している。
関連論文リスト
- FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control [55.38832429564216]
強化学習(Reinforcement Learning, RL)は、専門家によるデモンストレーションが利用できない場合のロボット制御における中核的なアプローチである。
我々は,Soft Actor-Critic上に構築された高速で安定なオフポリチィRLアルゴリズムであるFlashSACを提案する。
10のシミュレータで60以上のタスクをこなし、FlashSACは最終的なパフォーマンスとトレーニング効率の両方において、PPOと強力なオフポリシーベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-06T09:03:41Z) - Algorithms for dynamic scheduling in manufacturing, towards digital factories Improving Deadline Feasibility and Responsiveness via Temporal Networks [0.0]
従来の決定論的スケジュールは、現実が名目上の計画から逸脱した時に崩壊する。
この論文は、オフラインの制約プログラミングとオンラインの時間的ネットワーク実行を組み合わせることで、最悪の不確実性の下で実現可能なスケジュールを作成する。
論文 参考訳(メタデータ) (2025-10-16T17:28:25Z) - Fast and Stable Diffusion Planning through Variational Adaptive Weighting [3.745003761050674]
拡散モデルは、最近オフラインRLで有望であることが示されている。
これらの手法は、しばしば高い訓練コストと緩やかな収束に悩まされる。
本稿では,フローベース生成モデルに基づくオンライン推定のためのクローズドフォーム近似手法を提案する。
Maze2D タスクと Kitchen タスクの実験結果から,本手法は最大10倍のトレーニングステップで競争性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-06-20T02:12:04Z) - SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。
我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。
これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。