論文の概要: SAFE-GIL: SAFEty Guided Imitation Learning
- arxiv url: http://arxiv.org/abs/2404.05249v1
- Date: Mon, 8 Apr 2024 07:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:13:56.759618
- Title: SAFE-GIL: SAFEty Guided Imitation Learning
- Title(参考訳): SAFE-GIL:SAFEty Guided Imitation Learning
- Authors: Yusuf Umut Ciftci, Zeyuan Feng, Somil Bansal,
- Abstract要約: 行動クローニングは、ロボットが専門家の監督を観察し、制御ポリシーを学ぶという、模倣学習の一般的なアプローチである。
しかし、行動のクローンは、専門家のデモンストレーションから逸脱し、破滅的なシステム障害につながる可能性があるため、ポリシーのエラーが複雑になる"複合的エラー"問題に悩まされる。
本稿では,データ収集の際,専門家を敵対的障害から誘導する非政治行動クローニング手法であるSAFE-GILを提案する。
- 参考スコア(独自算出の注目度): 7.979892202477701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavior Cloning is a popular approach to Imitation Learning, in which a robot observes an expert supervisor and learns a control policy. However, behavior cloning suffers from the "compounding error" problem - the policy errors compound as it deviates from the expert demonstrations and might lead to catastrophic system failures, limiting its use in safety-critical applications. On-policy data aggregation methods are able to address this issue at the cost of rolling out and repeated training of the imitation policy, which can be tedious and computationally prohibitive. We propose SAFE-GIL, an off-policy behavior cloning method that guides the expert via adversarial disturbance during data collection. The algorithm abstracts the imitation error as an adversarial disturbance in the system dynamics, injects it during data collection to expose the expert to safety critical states, and collects corrective actions. Our method biases training to more closely replicate expert behavior in safety-critical states and allows more variance in less critical states. We compare our method with several behavior cloning techniques and DAgger on autonomous navigation and autonomous taxiing tasks and show higher task success and safety, especially in low data regimes where the likelihood of error is higher, at a slight drop in the performance.
- Abstract(参考訳): 行動クローニングは、ロボットが専門家の監督を観察し、制御ポリシーを学ぶという、模倣学習の一般的なアプローチである。
しかし、行動のクローン化は、専門家のデモから逸脱し、破滅的なシステム障害を招き、安全クリティカルなアプリケーションでの使用を制限することで、ポリシーのエラーが複雑になる、という「複雑なエラー」問題に悩まされる。
オンラインデータアグリゲーション手法は、模倣ポリシーのロールアウトと繰り返しのトレーニングを犠牲にしてこの問題に対処することができる。
本稿では,データ収集の際,専門家を敵対的障害から誘導する非政治行動クローニング手法であるSAFE-GILを提案する。
このアルゴリズムは、システムのダイナミックスにおいて、模倣エラーを敵対的障害として抽象化し、データ収集中にそれを注入し、専門家を安全クリティカルな状態に暴露し、修正アクションを収集する。
我々の手法は、安全クリティカルな状態において専門家の行動をより密に再現し、より重要でない状態においてより分散させることができるように訓練をバイアスする。
提案手法を,自律走行および自律タクシー作業におけるDAggerといくつかの行動クローニング手法を比較し,特にエラーの可能性が低い低データシステムにおいて,性能がわずかに低下した場合に,高いタスク成功と安全性を示す。
関連論文リスト
- Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Don't do it: Safer Reinforcement Learning With Rule-based Guidance [2.707154152696381]
訓練中、強化学習システムは行動の安全性を考慮せずに世界と対話する。
本稿では,安全ルールを用いて,安全でないと判断されたエージェントの行動をオーバーライドする新しい安全エプシロングレーディアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-28T13:42:56Z) - Safe Reinforcement Learning using Data-Driven Predictive Control [0.5459797813771499]
安全でない動作のフィルタとして機能するデータ駆動型安全層を提案する。
安全層は、提案されたアクションが安全でない場合にRLエージェントをペナルティ化し、最も安全なものに置き換える。
本手法は,ロボットナビゲーション問題において,最先端の安全RL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-20T17:10:40Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。