論文の概要: SAFE-GIL: SAFEty Guided Imitation Learning
- arxiv url: http://arxiv.org/abs/2404.05249v1
- Date: Mon, 8 Apr 2024 07:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:13:56.759618
- Title: SAFE-GIL: SAFEty Guided Imitation Learning
- Title(参考訳): SAFE-GIL:SAFEty Guided Imitation Learning
- Authors: Yusuf Umut Ciftci, Zeyuan Feng, Somil Bansal,
- Abstract要約: 行動クローニングは、ロボットが専門家の監督を観察し、制御ポリシーを学ぶという、模倣学習の一般的なアプローチである。
しかし、行動のクローンは、専門家のデモンストレーションから逸脱し、破滅的なシステム障害につながる可能性があるため、ポリシーのエラーが複雑になる"複合的エラー"問題に悩まされる。
本稿では,データ収集の際,専門家を敵対的障害から誘導する非政治行動クローニング手法であるSAFE-GILを提案する。
- 参考スコア(独自算出の注目度): 7.979892202477701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavior Cloning is a popular approach to Imitation Learning, in which a robot observes an expert supervisor and learns a control policy. However, behavior cloning suffers from the "compounding error" problem - the policy errors compound as it deviates from the expert demonstrations and might lead to catastrophic system failures, limiting its use in safety-critical applications. On-policy data aggregation methods are able to address this issue at the cost of rolling out and repeated training of the imitation policy, which can be tedious and computationally prohibitive. We propose SAFE-GIL, an off-policy behavior cloning method that guides the expert via adversarial disturbance during data collection. The algorithm abstracts the imitation error as an adversarial disturbance in the system dynamics, injects it during data collection to expose the expert to safety critical states, and collects corrective actions. Our method biases training to more closely replicate expert behavior in safety-critical states and allows more variance in less critical states. We compare our method with several behavior cloning techniques and DAgger on autonomous navigation and autonomous taxiing tasks and show higher task success and safety, especially in low data regimes where the likelihood of error is higher, at a slight drop in the performance.
- Abstract(参考訳): 行動クローニングは、ロボットが専門家の監督を観察し、制御ポリシーを学ぶという、模倣学習の一般的なアプローチである。
しかし、行動のクローン化は、専門家のデモから逸脱し、破滅的なシステム障害を招き、安全クリティカルなアプリケーションでの使用を制限することで、ポリシーのエラーが複雑になる、という「複雑なエラー」問題に悩まされる。
オンラインデータアグリゲーション手法は、模倣ポリシーのロールアウトと繰り返しのトレーニングを犠牲にしてこの問題に対処することができる。
本稿では,データ収集の際,専門家を敵対的障害から誘導する非政治行動クローニング手法であるSAFE-GILを提案する。
このアルゴリズムは、システムのダイナミックスにおいて、模倣エラーを敵対的障害として抽象化し、データ収集中にそれを注入し、専門家を安全クリティカルな状態に暴露し、修正アクションを収集する。
我々の手法は、安全クリティカルな状態において専門家の行動をより密に再現し、より重要でない状態においてより分散させることができるように訓練をバイアスする。
提案手法を,自律走行および自律タクシー作業におけるDAggerといくつかの行動クローニング手法を比較し,特にエラーの可能性が低い低データシステムにおいて,性能がわずかに低下した場合に,高いタスク成功と安全性を示す。
関連論文リスト
- A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - CoDE: Collocation for Demonstration Encoding [31.220899638271856]
デモのためのコロケーション(Collocation for Demonstration)と呼ばれるデータ効率のよい模倣学習手法を提案する。
最適制御におけるコロケーション技術からインスピレーションを得た補助軌道軌道を導入することにより、時間的問題による問題的バックプロパゲーションを回避する。
テーブルトップ操作を効率的に行うための7自由度ロボットマニピュレータ学習行動形成政策の実験について述べる。
論文 参考訳(メタデータ) (2021-05-07T00:34:43Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Driving Through Ghosts: Behavioral Cloning with False Positives [42.31740099795908]
本稿では,不完全な知覚を保守的でないまま安全に活用できる行動クローニング手法を提案する。
本稿では,物体知覚システムの雑音出力を符号化する,新しい確率論的鳥眼ビューセマンティックグリッドを提案する。
そして、専門家によるデモンストレーションを利用して、この確率的表現を用いて模擬駆動ポリシーを学ぶ。
論文 参考訳(メタデータ) (2020-08-29T12:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。