論文の概要: SAFE-GIL: SAFEty Guided Imitation Learning for Robotic Systems
- arxiv url: http://arxiv.org/abs/2404.05249v2
- Date: Tue, 19 Nov 2024 00:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:32:45.117923
- Title: SAFE-GIL: SAFEty Guided Imitation Learning for Robotic Systems
- Title(参考訳): SAFE-GIL:ロボットシステムのためのSAFEty Guided Imitation Learning
- Authors: Yusuf Umut Ciftci, Darren Chiu, Zeyuan Feng, Gaurav S. Sukhatme, Somil Bansal,
- Abstract要約: 安全に配慮した行動クローニングポリシーを学習するための設計時手法であるSAFE-GILを提案する。
我々は,データ収集中にシステム内の敵対的障害を注入し,専門家を安全クリティカルな状態へ誘導する。
この障害注入は、システムがテスト時に遭遇する可能性のある潜在的なポリシーエラーをシミュレートする。
- 参考スコア(独自算出の注目度): 15.782203322922017
- License:
- Abstract: Behavior cloning (BC) is a widely-used approach in imitation learning, where a robot learns a control policy by observing an expert supervisor. However, the learned policy can make errors and might lead to safety violations, which limits their utility in safety-critical robotics applications. While prior works have tried improving a BC policy via additional real or synthetic action labels, adversarial training, or runtime filtering, none of them explicitly focus on reducing the BC policy's safety violations during training time. We propose SAFE-GIL, a design-time method to learn safety-aware behavior cloning policies. SAFE-GIL deliberately injects adversarial disturbance in the system during data collection to guide the expert towards safety-critical states. This disturbance injection simulates potential policy errors that the system might encounter during the test time. By ensuring that training more closely replicates expert behavior in safety-critical states, our approach results in safer policies despite policy errors during the test time. We further develop a reachability-based method to compute this adversarial disturbance. We compare SAFE-GIL with various behavior cloning techniques and online safety-filtering methods in three domains: autonomous ground navigation, aircraft taxiing, and aerial navigation on a quadrotor testbed. Our method demonstrates a significant reduction in safety failures, particularly in low data regimes where the likelihood of learning errors, and therefore safety violations, is higher. See our website here: https://y-u-c.github.io/safegil/
- Abstract(参考訳): 行動クローニング(BC)は、ロボットが専門家の監督者を観察して制御ポリシーを学習する模倣学習において広く用いられるアプローチである。
しかし、学習したポリシーは間違いを犯し、安全違反につながる可能性がある。
以前の作業では、BCポリシーの改善には、追加のリアルまたは合成アクションラベル、敵のトレーニング、実行時フィルタリングなどがあったが、いずれも訓練期間中のBCポリシーの安全違反の軽減に特に重点を置いていない。
安全に配慮した行動クローニングポリシーを学習するための設計時手法であるSAFE-GILを提案する。
SAFE-GILは、データ収集中にシステム内の敵対的障害を意図的に注入し、専門家を安全クリティカルな状態へ誘導する。
この障害注入は、システムがテスト時に遭遇する可能性のある潜在的なポリシーエラーをシミュレートする。
安全クリティカルな状態において、トレーニングが専門家の行動をより密に再現することを保証することで、テスト期間中のポリシーエラーにもかかわらず、より安全なポリシーが得られます。
我々はさらに、この対向的障害を計算するための到達可能性に基づく手法を開発した。
我々は,SAFE-GILと各種行動クローニング手法とオンライン安全フィルタリング手法を,自律型地上ナビゲーション,航空機タクシー,四角形テストベッド上での航空ナビゲーションの3つの領域で比較した。
本手法は, 安全性の低下, 特に, 学習ミスや安全性違反の可能性が高くなる低データ体制において, 安全性の低下を顕著に示すものである。
https://y-u-c.github.io/safegil/
関連論文リスト
- A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - CoDE: Collocation for Demonstration Encoding [31.220899638271856]
デモのためのコロケーション(Collocation for Demonstration)と呼ばれるデータ効率のよい模倣学習手法を提案する。
最適制御におけるコロケーション技術からインスピレーションを得た補助軌道軌道を導入することにより、時間的問題による問題的バックプロパゲーションを回避する。
テーブルトップ操作を効率的に行うための7自由度ロボットマニピュレータ学習行動形成政策の実験について述べる。
論文 参考訳(メタデータ) (2021-05-07T00:34:43Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Driving Through Ghosts: Behavioral Cloning with False Positives [42.31740099795908]
本稿では,不完全な知覚を保守的でないまま安全に活用できる行動クローニング手法を提案する。
本稿では,物体知覚システムの雑音出力を符号化する,新しい確率論的鳥眼ビューセマンティックグリッドを提案する。
そして、専門家によるデモンストレーションを利用して、この確率的表現を用いて模擬駆動ポリシーを学ぶ。
論文 参考訳(メタデータ) (2020-08-29T12:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。