論文の概要: An Optimistic Algorithm for online CMDPS with Anytime Adversarial Constraints
- arxiv url: http://arxiv.org/abs/2505.21841v1
- Date: Wed, 28 May 2025 00:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.335681
- Title: An Optimistic Algorithm for online CMDPS with Anytime Adversarial Constraints
- Title(参考訳): 任意の制約を考慮したオンラインCMDPSの最適化アルゴリズム
- Authors: Jiahui Zhu, Kihyun Yu, Dabeen Lee, Xin Liu, Honghao Wei,
- Abstract要約: オンライン安全強化学習(RL)は、自律運転、ロボティクス、サイバーセキュリティなど、動的環境において重要な役割を果たす。
マルコフ決定プロセス(CMDP)をモデルとした安全制約を満たしつつ報酬を最大化する最適政策を学習することを目的とする。
既存の手法は制約の下でサブリニアな後悔を実現するが、制約が未知、時間変化、潜在的に敵意的に設計された場合、しばしば敵の設定で失敗する。
最適ミラーDescent Primal-Dual (OMDPD) アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.275101606364466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online safe reinforcement learning (RL) plays a key role in dynamic environments, with applications in autonomous driving, robotics, and cybersecurity. The objective is to learn optimal policies that maximize rewards while satisfying safety constraints modeled by constrained Markov decision processes (CMDPs). Existing methods achieve sublinear regret under stochastic constraints but often fail in adversarial settings, where constraints are unknown, time-varying, and potentially adversarially designed. In this paper, we propose the Optimistic Mirror Descent Primal-Dual (OMDPD) algorithm, the first to address online CMDPs with anytime adversarial constraints. OMDPD achieves optimal regret O(sqrt(K)) and strong constraint violation O(sqrt(K)) without relying on Slater's condition or the existence of a strictly known safe policy. We further show that access to accurate estimates of rewards and transitions can further improve these bounds. Our results offer practical guarantees for safe decision-making in adversarial environments.
- Abstract(参考訳): オンライン安全強化学習(RL)は、自律運転、ロボティクス、サイバーセキュリティなど、動的環境において重要な役割を果たす。
本研究の目的は、マルコフ決定プロセス(CMDP)によってモデル化された安全制約を満たしつつ、報酬を最大化する最適な政策を学習することである。
既存の手法は、確率的制約の下ではサブ線形後悔を実現するが、制約が未知、時間的変化、潜在的に敵意的に設計された場合、しばしば敵の設定で失敗する。
本稿では,オンラインCMDPの最適ミラーDescent Primal-Dual(OMDPD)アルゴリズムを提案する。
OMDPDは、スレーターの条件や厳密に知られた安全なポリシーの存在に依存することなく、最適な後悔O(sqrt(K))と強い制約違反O(sqrt(K))を達成する。
さらに、報酬と遷移の正確な推定値へのアクセスにより、これらの限界をさらに改善できることが示される。
本研究は,敵対的環境における安全な意思決定の実践的保証を提供する。
関連論文リスト
- Flipping-based Policy for Chance-Constrained Markov Decision Processes [9.404184937255694]
本稿では,CCMDP(Chance-Constrained Markov Decision Processs)のためのテキストフリップに基づくポリシーを提案する。
フリップベースのポリシーは、2つのアクション候補の間で潜在的に歪んだコインを投げて次のアクションを選択する。
提案手法は,既存の安全RLアルゴリズムの性能を安全性の制約と同じ限度で向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:39Z) - Learning Adversarial MDPs with Stochastic Hard Constraints [37.24692425018]
我々は,制約付きマルコフ決定過程(CMDP)におけるオンライン学習について,敵対的損失と厳しい制約を伴って検討した。
我々の研究は、敵の損失と厳しい制約の両方にかかわるCMDPを初めて研究した。
論文 参考訳(メタデータ) (2024-03-06T12:49:08Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。