論文の概要: Safe CoR: A Dual-Expert Approach to Integrating Imitation Learning and Safe Reinforcement Learning Using Constraint Rewards
- arxiv url: http://arxiv.org/abs/2407.02245v1
- Date: Tue, 2 Jul 2024 13:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:25:45.136201
- Title: Safe CoR: A Dual-Expert Approach to Integrating Imitation Learning and Safe Reinforcement Learning Using Constraint Rewards
- Title(参考訳): Safe CoR:制約リワードを用いた模倣学習と安全な強化学習の統合のための2段階的アプローチ
- Authors: Hyeokjin Kwon, Gunmin Lee, Junseo Lee, Songhwai Oh,
- Abstract要約: 複雑な環境をナビゲートするための安全な報酬学習フレームワークを提案する。
提案フレームワークは,実世界のJackalプラットフォーム上での制約違反を8,8$%削減する。
- 参考スコア(独自算出の注目度): 10.679693797257737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of autonomous agents, ensuring safety and reliability in complex and dynamic environments remains a paramount challenge. Safe reinforcement learning addresses these concerns by introducing safety constraints, but still faces challenges in navigating intricate environments such as complex driving situations. To overcome these challenges, we present the safe constraint reward (Safe CoR) framework, a novel method that utilizes two types of expert demonstrations$\unicode{x2013}$reward expert demonstrations focusing on performance optimization and safe expert demonstrations prioritizing safety. By exploiting a constraint reward (CoR), our framework guides the agent to balance performance goals of reward sum with safety constraints. We test the proposed framework in diverse environments, including the safety gym, metadrive, and the real$\unicode{x2013}$world Jackal platform. Our proposed framework enhances the performance of algorithms by $39\%$ and reduces constraint violations by $88\%$ on the real-world Jackal platform, demonstrating the framework's efficacy. Through this innovative approach, we expect significant advancements in real-world performance, leading to transformative effects in the realm of safe and reliable autonomous agents.
- Abstract(参考訳): 自律型エージェントの領域では、複雑な環境と動的環境の安全性と信頼性を確保することが最重要課題である。
安全強化学習は、安全制約を導入することでこれらの懸念に対処するが、複雑な運転状況のような複雑な環境をナビゲートする際の課題に直面している。
これらの課題を克服するために、安全な制約報酬(Safe CoR)フレームワークを紹介します。これは、安全を優先したパフォーマンス最適化と安全な専門家のデモンストレーションに焦点を当てた、2種類の専門家デモを利用する新しい方法です。
制約報酬(CoR)を活用することで、当社のフレームワークは、報酬の合計性能目標と安全制約とのバランスをとるようにエージェントをガイドします。
提案するフレームワークは,セーフティジムやメタドライブ,リアル$\unicode{x2013}$world Jackalプラットフォームなど,さまざまな環境でテストする。
提案フレームワークは,実世界のJackalプラットフォームにおいて,アルゴリズムの性能を3,9 %向上し,制約違反を8,8 %削減する。
この革新的なアプローチを通じて、現実世界のパフォーマンスが大幅に向上し、安全で信頼性の高い自律エージェントの領域における変革的な効果が期待できる。
関連論文リスト
- Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium [6.169364905804677]
マルチエージェント強化学習(MARL)は協調作業において顕著な成功を収めた。
MARLエージェントを現実世界のアプリケーションにデプロイすることは、重大な安全性上の課題を示す。
我々は,エージェントが訪れるすべての状態において,安全要件を強制する,$textitstate-wise$制約付き安全なMARLの新たな理論的枠組みを提案する。
複雑な高次元システムにおける実践的展開のために、$textitMulti-Agent Dual Actor-Critic$ (MADAC)を提案する。
論文 参考訳(メタデータ) (2024-11-22T16:08:42Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Gradient Shaping for Multi-Constraint Safe Reinforcement Learning [31.297400160104853]
オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。
本稿では,MCセーフなRLアルゴリズムのための統一フレームワークを提案する。
一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエント・シェーピング(GradS)法を導入し、報酬と制約満足度の両方の観点からトレーニング効率を向上させる。
論文 参考訳(メタデータ) (2023-12-23T00:55:09Z) - Learning Safety Constraints from Demonstrations with Unknown Rewards [64.87517144096734]
強化学習のための凸制約学習(CoCoRL)を提案する。
CoCoRLは、環境力学の知識なしに、未知の報酬を持つデモから制約を学ぶことができる。
グリッドワールド環境におけるCoCoRLの評価と,複数制約による運転シミュレーションを行った。
論文 参考訳(メタデータ) (2023-05-25T15:18:46Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - SAAC: Safe Reinforcement Learning as an Adversarial Game of
Actor-Critics [11.132587007566329]
そこで我々は,SAACと呼ばれるソフトアクター批判フレームワークを開発した。
SAACでは、RLエージェントが制約値関数の最大化を目標として、安全制約を破ることを目的としている。
安全性の制約を満たすために,SAACはより早く収束し,効率が良く,障害が少なくなることを示す。
論文 参考訳(メタデータ) (2022-04-20T12:32:33Z) - Safe Active Dynamics Learning and Control: A Sequential
Exploration-Exploitation Framework [30.58186749790728]
本研究では,力学の不確実性の存在下での安全性を維持するための理論的に正当なアプローチを提案する。
我々のフレームワークは、常に全ての制約の高確率満足度を保証します。
この理論解析は、オンライン適応能力を改善する最終層メタラーニングモデルの2つの正則化を動機付けている。
論文 参考訳(メタデータ) (2020-08-26T17:39:58Z) - Verifiably Safe Exploration for End-to-End Reinforcement Learning [17.401496872603943]
本稿では,視覚的入力によるエンドツーエンドポリシーの形式的安全性制約の実施に向けた最初のアプローチを提案する。
厳密な制約の存在下で安全に探索することの難しさを強調する新しいベンチマークで評価されている。
論文 参考訳(メタデータ) (2020-07-02T16:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。