論文の概要: Hamilton-Jacobi Reachability in Reinforcement Learning: A Survey
- arxiv url: http://arxiv.org/abs/2407.09645v2
- Date: Wed, 21 Aug 2024 19:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:56:04.258875
- Title: Hamilton-Jacobi Reachability in Reinforcement Learning: A Survey
- Title(参考訳): 強化学習におけるハミルトン・ヤコビの到達可能性に関する調査
- Authors: Milan Ganai, Sicun Gao, Sylvia Herbert,
- Abstract要約: ハミルトン・ヤコビ・リーチブル・セットは、安全を確認し、強化学習に基づく制御ポリシーの訓練を監督するための有効なツールとなっている。
本稿では,強化学習におけるHJ到達可能性評価の分野における最近の展開を概観する。
- 参考スコア(独自算出の注目度): 14.139593387518238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent literature has proposed approaches that learn control policies with high performance while maintaining safety guarantees. Synthesizing Hamilton-Jacobi (HJ) reachable sets has become an effective tool for verifying safety and supervising the training of reinforcement learning-based control policies for complex, high-dimensional systems. Previously, HJ reachability was restricted to verifying low-dimensional dynamical systems primarily because the computational complexity of the dynamic programming approach it relied on grows exponentially with the number of system states. In recent years, a litany of proposed methods addresses this limitation by computing the reachability value function simultaneously with learning control policies to scale HJ reachability analysis while still maintaining a reliable estimate of the true reachable set. These HJ reachability approximations are used to improve the safety, and even reward performance, of learned control policies and can solve challenging tasks such as those with dynamic obstacles and/or with lidar-based or vision-based observations. In this survey paper, we review the recent developments in the field of HJ reachability estimation in reinforcement learning that would provide a foundational basis for further research into reliability in high-dimensional systems.
- Abstract(参考訳): 近年の文献では、安全保証を維持しつつ、高い性能で制御ポリシーを学習するアプローチが提案されている。
ハミルトン・ヤコビ・リーチブル・セット(HJ)の合成は、複雑な高次元システムに対する強化学習に基づく制御ポリシーの訓練の安全性を検証し、監督するための有効なツールとなっている。
以前は、HJの到達性は低次元の動的システムの検証に限られていたが、それは主に、それが依存する動的プログラミング手法の計算複雑性が、システム状態の数とともに指数関数的に増加するためである。
近年,提案手法のいくつかは,HJ到達可能性分析をスケールするための学習制御ポリシと同時に到達可能性値関数を計算し,真の到達可能性集合の信頼性を保ちながら,この制限に対処している。
これらのHJ到達可能性近似は、学習された制御ポリシーの安全性の向上や、報酬のパフォーマンス向上に利用され、動的障害やライダーベースや視覚に基づく観察といった課題を解決することができる。
本稿では,高次元システムにおける信頼性のさらなる研究の基盤となる強化学習におけるHJ到達可能性評価の分野における最近の展開を概観する。
関連論文リスト
- Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safety-aware Policy Optimisation for Autonomous Racing [17.10371721305536]
ハミルトン・ヤコビ(HJ)到達可能性理論を制約付きマルコフ決定過程(CMDP)フレームワークに導入する。
我々は,HJの安全性を視覚的文脈で直接学習できることを実証した。
我々は、最近リリースされた高忠実な自律走行環境であるSafety GymやLearning-to-Race (L2R)など、いくつかのベンチマークタスクにおいて、本手法の評価を行った。
論文 参考訳(メタデータ) (2021-10-14T20:15:45Z) - Safe Exploration in Model-based Reinforcement Learning using Control
Barrier Functions [1.005130974691351]
我々は、最小侵襲の安全管理ポリシーを開発するためにCBFの有益な特性を保持する新しいCBFのクラスを開発する。
我々は,これらのlcbfを学習ベースの制御ポリシーの強化に活用し,安全性を保証し,このアプローチを利用して安全な探索フレームワークを開発する方法を示す。
論文 参考訳(メタデータ) (2021-04-16T15:29:58Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。