論文の概要: SAFARI: Safe and Active Robot Imitation Learning with Imagination
- arxiv url: http://arxiv.org/abs/2011.09586v1
- Date: Wed, 18 Nov 2020 23:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 05:24:08.152771
- Title: SAFARI: Safe and Active Robot Imitation Learning with Imagination
- Title(参考訳): サファリ:イマジネーションによる安全でアクティブなロボット模倣学習
- Authors: Norman Di Palo, Edward Johns
- Abstract要約: SAFARIは、新しい能動的学習制御アルゴリズムである。
これにより、エージェントは、これらのアウト・オブ・ディストリビューションの状況が満たされたときに、さらに人間のデモを要求することができる。
本手法により, エージェントが自律的に障害を迅速かつ安全に予測できることを示す。
- 参考スコア(独自算出の注目度): 16.967930721746676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the main issues in Imitation Learning is the erroneous behavior of an
agent when facing out-of-distribution situations, not covered by the set of
demonstrations given by the expert. In this work, we tackle this problem by
introducing a novel active learning and control algorithm, SAFARI. During
training, it allows an agent to request further human demonstrations when these
out-of-distribution situations are met. At deployment, it combines model-free
acting using behavioural cloning with model-based planning to reduce
state-distribution shift, using future state reconstruction as a test for state
familiarity. We empirically demonstrate how this method increases the
performance on a set of manipulation tasks with respect to passive Imitation
Learning, by gathering more informative demonstrations and by minimizing
state-distribution shift at test time. We also show how this method enables the
agent to autonomously predict failure rapidly and safely.
- Abstract(参考訳): 模倣学習における主要な問題の一つは、専門家が与えた一連のデモンストレーションの対象とせず、分配外の状況に直面するエージェントの誤った行動である。
本研究では,新しい能動学習制御アルゴリズムSAFARIを導入することで,この問題に対処する。
訓練中、エージェントはこれらの分散状態が満たされた場合に、さらなる人間のデモンストレーションを要求することができる。
デプロイメントでは、振る舞いクローンを使ったモデルフリーな動作とモデルベースの計画を組み合わせることで、状態の分散シフトを低減する。
本手法は,より情報的な実演を収集し,テスト時の状態分布シフトを最小限にすることで,受動模倣学習に対する操作タスクセットの性能向上を実証的に実証する。
また,この手法によってエージェントが自律的に障害を迅速かつ安全に予測できることを示す。
関連論文リスト
- Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文 参考訳(メタデータ) (2024-10-07T18:49:55Z) - Self-Supervised Adversarial Imitation Learning [20.248498544165184]
行動クローンは、専門家によるデモンストレーションを通じてエージェントに行動の仕方を教える。
最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な観測不可能なスナップショットをセルフスーパービジョンで使用しています。
これまでの作業では、この問題を解決するためにゴール認識戦略を使用していました。
差別化を元のフレームワークに組み込むことによって、この制限に対処する。
論文 参考訳(メタデータ) (2023-04-21T12:12:33Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent
Policy Optimization [1.0965065178451106]
マルコフ決定過程において、専門家による実証を模倣し、性能を向上できる制御ポリシーを得るという課題について検討する。
主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。
本稿では,新たな報酬と行動方針学習アプローチを通じて,学習エージェントが実証者より優れる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-21T02:16:21Z) - Interactive Imitation Learning in State-Space [5.672132510411464]
状態空間における人間のフィードバックを用いてエージェントの動作を訓練し改善する対話型学習手法を提案する。
「状態空間におけるImitative Policies in State-space(TIPS)」という題名のメソッドは、状態の変化の観点からエージェントにガイダンスを提供することを可能にします。」
論文 参考訳(メタデータ) (2020-08-02T17:23:54Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。