論文の概要: Safe Offline Reinforcement Learning with Real-Time Budget Constraints
- arxiv url: http://arxiv.org/abs/2306.00603v2
- Date: Mon, 4 Mar 2024 14:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:29:42.287544
- Title: Safe Offline Reinforcement Learning with Real-Time Budget Constraints
- Title(参考訳): リアルタイム予算制約による安全オフライン強化学習
- Authors: Qian Lin, Bo Tang, Zifan Wu, Chao Yu, Shangqin Mao, Qianlong Xie,
Xingxing Wang, Dong Wang
- Abstract要約: 多くの現実世界のアプリケーションでは、学習されたポリシーは動的に決定された安全予算にリアルタイムで対応する必要がある。
本稿では,トラジェクティブに基づくReal-time Budget Inference (TREBI) を提案する。
オフライン環境下でのリアルタイム予算制約問題の解決におけるTREBIの有効性を実世界の大規模広告アプリケーションで実証した。
- 参考スコア(独自算出の注目度): 17.64685813460148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aiming at promoting the safe real-world deployment of Reinforcement Learning
(RL), research on safe RL has made significant progress in recent years.
However, most existing works in the literature still focus on the online
setting where risky violations of the safety budget are likely to be incurred
during training. Besides, in many real-world applications, the learned policy
is required to respond to dynamically determined safety budgets (i.e.,
constraint threshold) in real time. In this paper, we target at the above
real-time budget constraint problem under the offline setting, and propose
Trajectory-based REal-time Budget Inference (TREBI) as a novel solution that
models this problem from the perspective of trajectory distribution and solves
it through diffusion model planning. Theoretically, we prove an error bound of
the estimation on the episodic reward and cost under the offline setting and
thus provide a performance guarantee for TREBI. Empirical results on a wide
range of simulation tasks and a real-world large-scale advertising application
demonstrate the capability of TREBI in solving real-time budget constraint
problems under offline settings.
- Abstract(参考訳): safe real-world deployment of reinforcement learning (rl) の推進を目指して,safe rlの研究が近年,大きな進展を遂げている。
しかし、既存の文献の多くは、トレーニング中に安全予算の危険な違反が引き起こされる可能性の高いオンライン環境に焦点を当てている。
さらに、多くの現実世界のアプリケーションでは、学習したポリシーが動的に決定された安全予算(すなわち制約しきい値)にリアルタイムで応答する必要がある。
本稿では, オフライン環境下でのリアルタイム予算制約問題を対象として, トラジェクトリに基づくReal-time Budget Inference (TREBI) を提案し, トラジェクトリ分布の観点からこの問題をモデル化し, 拡散モデル計画を通じて解決する。
理論的には,オフライン環境でのエピソディック報酬とコストに対する推定誤差のバウンドを証明し,trebiの性能保証を提供する。
幅広いシミュレーションタスクと実世界の大規模広告アプリケーションにおける経験的な結果から,オフライン環境でのリアルタイム予算制約問題を解決する上で,trebiの能力が示された。
関連論文リスト
- Sparsity-based Safety Conservatism for Constrained Offline Reinforcement Learning [4.0847743592744905]
強化学習(Reinforcement Learning, RL)は、自律運転やロボット操作といった意思決定分野で大きな成功を収めている。
RLのトレーニングアプローチは、"オン・ポリティクス(on-policy)"サンプリングを中心にしているが、データを完全には活用していない。
オフラインRLは魅力的な代替手段として現れており、特に追加実験を行うことは実用的ではない。
論文 参考訳(メタデータ) (2024-07-17T20:57:05Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Sustainable Online Reinforcement Learning for Auto-bidding [10.72140135793476]
最先端の自動入札ポリシーは、通常、広告主に代わってリアルタイム入札を生成するために強化学習(RL)アルゴリズムを活用する。
安全上の懸念から,RASで発生した履歴データに基づいて構築されたオフライン仮想広告システム(VAS)では,RLトレーニングプロセスが実行可能であると考えられた。
本稿では、VASとRASの間には大きなギャップがあることを論じ、RALトレーニングプロセスはオンラインとオフラインの整合性の問題に悩まされる。
論文 参考訳(メタデータ) (2022-10-13T13:17:20Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。