論文の概要: SAFE-GIL: SAFEty Guided Imitation Learning for Robotic Systems
- arxiv url: http://arxiv.org/abs/2404.05249v2
- Date: Tue, 19 Nov 2024 00:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:32:45.117923
- Title: SAFE-GIL: SAFEty Guided Imitation Learning for Robotic Systems
- Title(参考訳): SAFE-GIL:ロボットシステムのためのSAFEty Guided Imitation Learning
- Authors: Yusuf Umut Ciftci, Darren Chiu, Zeyuan Feng, Gaurav S. Sukhatme, Somil Bansal,
- Abstract要約: 安全に配慮した行動クローニングポリシーを学習するための設計時手法であるSAFE-GILを提案する。
我々は,データ収集中にシステム内の敵対的障害を注入し,専門家を安全クリティカルな状態へ誘導する。
この障害注入は、システムがテスト時に遭遇する可能性のある潜在的なポリシーエラーをシミュレートする。
- 参考スコア(独自算出の注目度): 15.782203322922017
- License:
- Abstract: Behavior cloning (BC) is a widely-used approach in imitation learning, where a robot learns a control policy by observing an expert supervisor. However, the learned policy can make errors and might lead to safety violations, which limits their utility in safety-critical robotics applications. While prior works have tried improving a BC policy via additional real or synthetic action labels, adversarial training, or runtime filtering, none of them explicitly focus on reducing the BC policy's safety violations during training time. We propose SAFE-GIL, a design-time method to learn safety-aware behavior cloning policies. SAFE-GIL deliberately injects adversarial disturbance in the system during data collection to guide the expert towards safety-critical states. This disturbance injection simulates potential policy errors that the system might encounter during the test time. By ensuring that training more closely replicates expert behavior in safety-critical states, our approach results in safer policies despite policy errors during the test time. We further develop a reachability-based method to compute this adversarial disturbance. We compare SAFE-GIL with various behavior cloning techniques and online safety-filtering methods in three domains: autonomous ground navigation, aircraft taxiing, and aerial navigation on a quadrotor testbed. Our method demonstrates a significant reduction in safety failures, particularly in low data regimes where the likelihood of learning errors, and therefore safety violations, is higher. See our website here: https://y-u-c.github.io/safegil/
- Abstract(参考訳): 行動クローニング(BC)は、ロボットが専門家の監督者を観察して制御ポリシーを学習する模倣学習において広く用いられるアプローチである。
しかし、学習したポリシーは間違いを犯し、安全違反につながる可能性がある。
以前の作業では、BCポリシーの改善には、追加のリアルまたは合成アクションラベル、敵のトレーニング、実行時フィルタリングなどがあったが、いずれも訓練期間中のBCポリシーの安全違反の軽減に特に重点を置いていない。
安全に配慮した行動クローニングポリシーを学習するための設計時手法であるSAFE-GILを提案する。
SAFE-GILは、データ収集中にシステム内の敵対的障害を意図的に注入し、専門家を安全クリティカルな状態へ誘導する。
この障害注入は、システムがテスト時に遭遇する可能性のある潜在的なポリシーエラーをシミュレートする。
安全クリティカルな状態において、トレーニングが専門家の行動をより密に再現することを保証することで、テスト期間中のポリシーエラーにもかかわらず、より安全なポリシーが得られます。
我々はさらに、この対向的障害を計算するための到達可能性に基づく手法を開発した。
我々は,SAFE-GILと各種行動クローニング手法とオンライン安全フィルタリング手法を,自律型地上ナビゲーション,航空機タクシー,四角形テストベッド上での航空ナビゲーションの3つの領域で比較した。
本手法は, 安全性の低下, 特に, 学習ミスや安全性違反の可能性が高くなる低データ体制において, 安全性の低下を顕著に示すものである。
https://y-u-c.github.io/safegil/
関連論文リスト
- Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Don't do it: Safer Reinforcement Learning With Rule-based Guidance [2.707154152696381]
訓練中、強化学習システムは行動の安全性を考慮せずに世界と対話する。
本稿では,安全ルールを用いて,安全でないと判断されたエージェントの行動をオーバーライドする新しい安全エプシロングレーディアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-28T13:42:56Z) - Safe Reinforcement Learning using Data-Driven Predictive Control [0.5459797813771499]
安全でない動作のフィルタとして機能するデータ駆動型安全層を提案する。
安全層は、提案されたアクションが安全でない場合にRLエージェントをペナルティ化し、最も安全なものに置き換える。
本手法は,ロボットナビゲーション問題において,最先端の安全RL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-20T17:10:40Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。