論文の概要: Stochastic Minimum-Cost Reach-Avoid Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.11975v2
- Date: Mon, 18 May 2026 06:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.273136
- Title: Stochastic Minimum-Cost Reach-Avoid Reinforcement Learning
- Title(参考訳): 確率最小コストリーチ回避強化学習
- Authors: Jingduo Pan, Taoran Wu, Yiling Xue, Bai Xue,
- Abstract要約: 本研究は, エージェントが少なくとも$p$のリーチアビド仕様を満たさなければならない最小コストリーチアビド強化学習について, 予測累積コストを最小化しながら検討する。
既存の安全で制約のある強化学習手法は、環境の学習環境において、確率的リーチ回避コストを共同で強制することができない。
- 参考スコア(独自算出の注目度): 0.7319728937144206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study stochastic minimum-cost reach-avoid reinforcement learning, where an agent must satisfy a reach-avoid specification with probability at least $p$ while minimizing expected cumulative costs in stochastic environments. Existing safe and constrained reinforcement learning methods typically fail to jointly enforce probabilistic reach-avoid constraints and optimize cost in the learning setting in stochastic environments. To address this challenge, we introduce reach-avoid probability certificates (RAPCs), which identify states from which stochastic reach-avoid constraints are satisfiable. Building on RAPCs, we develop a contraction-based Bellman formulation that serves as a principled surrogate for integrating reach-avoid considerations into reinforcement learning, enabling cost optimization under probabilistic constraints. We establish almost sure convergence of the proposed algorithms to locally optimal policies with respect to the resulting objective. Experiments in the MuJoCo simulator demonstrate improved cost performance and consistently higher reach-avoid satisfaction rates.
- Abstract(参考訳): 確率的最小限のリーチ・アビド強化学習において,エージェントは確率的に少なくとも$p$のリーチ・アビド仕様を満たさなければならないが,確率的環境における予測累積コストを最小化する。
既存の安全で制約のある強化学習手法は、確率的リーチ回避制約を共同で実施し、確率的環境における学習環境におけるコストを最適化するのに失敗する。
この課題に対処するために、確率的リーチ回避確率証明(RAPC)を導入し、確率的リーチ回避確率制約が満足できる状態を特定する。
RAPC上に構築したベルマン定式化は,拡張学習にリーチ回避的考察を統合するための原則的サロゲートとして機能し,確率的制約下でのコスト最適化を実現する。
提案手法は,提案手法を局所的最適ポリシーにほぼ確実に収束させる。
MuJoCoシミュレータの実験では、コストパフォーマンスが向上し、到達可能な満足度が一貫して向上した。
関連論文リスト
- MC-CPO: Mastery-Conditioned Constrained Policy Optimization [1.4323566945483497]
エンゲージメント最適化適応学習システムは、持続的な学習結果よりも短期的な行動信号を優先することができる。
本稿では,構造的行動マスキングと制約付きポリシー最適化を統合した2段階の原始双対アルゴリズムであるMastery-Conditioned Constrained Policy Optimization (MC-CPO)を紹介する。
10個のランダムシードと100万のトレーニングステップで、MC-CPOは許容範囲内の制約予算を満たし、制約のない、報酬型のベースラインに対する安全性コストを低減し、Reward Hacking Severity Index(RHSI)を大幅に低下させる。
論文 参考訳(メタデータ) (2026-04-05T20:13:34Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Conformal Mixed-Integer Constraint Learning with Feasibility Guarantees [0.3058340744328236]
Conformal Mixed-Integer Constraint Learningは、最適化問題におけるデータ駆動制約の確率論的実現可能性を保証する。
我々は,C-MICLが目標レートを一貫して達成し,競争目標性能を維持し,既存の手法に比べて計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2025-06-04T03:26:31Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Robust Constrained Reinforcement Learning [21.316736188238806]
制約付き強化学習は、ユーティリティやコストの制約による期待される報酬を最大化することである。
モデル不確実性下での頑健な制約付き強化学習の枠組みを提案する。
目的は、不確実性セットにおけるすべてのMDPに対して、ユーティリティ/コストの制約が満たされることを保証し、不確実性セットに対する最悪の報酬パフォーマンスを最大化することである。
論文 参考訳(メタデータ) (2022-09-14T18:29:02Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。