論文の概要: Solving Parameter-Robust Avoid Problems with Unknown Feasibility using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.15817v1
- Date: Tue, 17 Feb 2026 18:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.16996
- Title: Solving Parameter-Robust Avoid Problems with Unknown Feasibility using Reinforcement Learning
- Title(参考訳): 強化学習を用いた未知性を考慮したパラメータ・ロバスト回避問題の解法
- Authors: Oswin So, Eric Yang Yu, Songyuan Zhang, Matthew Cleaveland, Mitchell Black, Chuchu Fan,
- Abstract要約: 本稿では,FGE(Fasibility-Guided Exploration)が初期条件に挑戦する最良の方法よりも50%以上のカバレッジでポリシーを学習していることを示す。
FGEは、安全なポリシーが存在する実現可能な初期条件のサブセットを同時に特定し、この一連の初期条件の到達可能性問題を解決するためのポリシーを学ぶ。
- 参考スコア(独自算出の注目度): 20.981639605930376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep reinforcement learning (RL) have achieved strong results on high-dimensional control tasks, but applying RL to reachability problems raises a fundamental mismatch: reachability seeks to maximize the set of states from which a system remains safe indefinitely, while RL optimizes expected returns over a user-specified distribution. This mismatch can result in policies that perform poorly on low-probability states that are still within the safe set. A natural alternative is to frame the problem as a robust optimization over a set of initial conditions that specify the initial state, dynamics and safe set, but whether this problem has a solution depends on the feasibility of the specified set, which is unknown a priori. We propose Feasibility-Guided Exploration (FGE), a method that simultaneously identifies a subset of feasible initial conditions under which a safe policy exists, and learns a policy to solve the reachability problem over this set of initial conditions. Empirical results demonstrate that FGE learns policies with over 50% more coverage than the best existing method for challenging initial conditions across tasks in the MuJoCo simulator and the Kinetix simulator with pixel observations.
- Abstract(参考訳): 近年の深部強化学習(RL)は高次元制御タスクにおいて大きな成果を上げているが、到達可能性問題へのRLの適用は根本的なミスマッチを引き起こしている。
このミスマッチは、まだ安全な状態にある低確率状態において、パフォーマンスの悪いポリシーをもたらす可能性がある。
自然な代替手段は、初期状態、力学、安全集合を規定する初期条件の集合に対する堅牢な最適化として問題をフレーム化することであるが、この問題に解が存在するかどうかは、指定された集合の実現可能性に依存する。
本稿では,安全策が存在する既約初期条件のサブセットを同時に同定するフェーザビリティガイド探索法(FGE)を提案し,この初期条件の集合に対する到達可能性問題の解法を学習する。
実験結果から,MuJoCoシミュレータとKinetixシミュレータの画素観察における初期条件に挑戦する手法よりも,FGEは50%以上カバレッジでポリシーを学習していることがわかった。
関連論文リスト
- Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Reachability Constrained Reinforcement Learning [6.5158195776494]
本稿では、到達可能性解析を用いて最大の実現可能性集合を特徴付けるリーチビリティCRL(RCRL)法を提案する。
また、マルチ時間スケール近似理論を用いて、提案アルゴリズムが局所最適化に収束することを証明する。
安全な制御ジャムやセーフティガイムなどの異なるベンチマークにおける実験結果は、学習可能なセット、最適基準における性能、RCRLの制約満足度などを検証する。
論文 参考訳(メタデータ) (2022-05-16T09:32:45Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。