論文の概要: Get Back Here: Robust Imitation by Return-to-Distribution Planning
- arxiv url: http://arxiv.org/abs/2305.01400v1
- Date: Tue, 2 May 2023 13:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:27:20.098465
- Title: Get Back Here: Robust Imitation by Return-to-Distribution Planning
- Title(参考訳): 帰路:再分配計画によるロバストな模倣
- Authors: Geoffrey Cideron, Baruch Tabanpour, Sebastian Curi, Sertan Girgin,
Leonard Hussenot, Gabriel Dulac-Arnold, Matthieu Geist, Olivier Pietquin,
Robert Dadashi
- Abstract要約: 我々は、実際のデプロイメント環境でではなく、別のバージョンで専門家データを収集するImitation Learning (IL)のセットアップについて検討する。
結果の分布シフトに対処するため,エージェントがデモンストレーション分布から逸脱するたびに,エージェントを専門家が訪れた状態に戻すことを任務とする行動クローニング(BC)とプランナーを組み合わせる。
結果のアルゴリズムPOIRはオフラインでトレーニングでき、オンラインインタラクションを活用してプランナーを効率よく微調整し、時間とともにパフォーマンスを向上する。
- 参考スコア(独自算出の注目度): 43.26690674765619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the Imitation Learning (IL) setup where expert data are not
collected on the actual deployment environment but on a different version. To
address the resulting distribution shift, we combine behavior cloning (BC) with
a planner that is tasked to bring the agent back to states visited by the
expert whenever the agent deviates from the demonstration distribution. The
resulting algorithm, POIR, can be trained offline, and leverages online
interactions to efficiently fine-tune its planner to improve performance over
time. We test POIR on a variety of human-generated manipulation demonstrations
in a realistic robotic manipulation simulator and show robustness of the
learned policy to different initial state distributions and noisy dynamics.
- Abstract(参考訳): 我々は、実際のデプロイ環境ではなく、異なるバージョンで専門家データが収集される模倣学習(il)セットアップについて検討する。
結果の分布シフトに対処するため,エージェントがデモンストレーション分布から逸脱するたびに,エージェントを専門家が訪れた状態に戻すことを任務とする行動クローニング(BC)とプランナーを組み合わせる。
結果のアルゴリズムPOIRはオフラインでトレーニングでき、オンラインインタラクションを活用してプランナーを効率よく微調整し、時間とともにパフォーマンスを向上する。
我々は,現実的なロボット操作シミュレータを用いて,多種多様な人為的な操作動作の実証実験を行い,初期状態分布と雑音ダイナミクスに対する学習方針の堅牢性を示す。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Zero-shot Imitation Policy via Search in Demonstration Dataset [0.16817021284806563]
行動クローンは、ポリシーを学ぶためにデモのデータセットを使用する。
本稿では,事前学習した基礎モデルの潜在空間を用いて,実演データセットをインデックス化することを提案する。
提案手法は,マインクラフト環境において,有意義なデモンストレーションを効果的に再現し,エージェントの人間的行動を示す。
論文 参考訳(メタデータ) (2024-01-29T18:38:29Z) - Behavioral Cloning via Search in Video PreTraining Latent Space [0.13999481573773073]
専門家のデモンストレーションのデータセット上での探索問題として制御問題を定式化する。
我々は,ビデオPreTrainingモデルの潜在表現において,BASALT MineRLデータセットの近接探索を行う。
エージェントは、エージェントの状態表現とデータセットから選択された専門家軌跡との距離が分岐しない限り、専門家軌跡からのアクションをコピーする。
論文 参考訳(メタデータ) (2022-12-27T00:20:37Z) - Back to the Manifold: Recovering from Out-of-Distribution States [20.36024602311382]
本稿では,エージェントをトレーニング多様体に戻すための回復策を提案する。
実際のロボットプラットフォーム上での操作実験により提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-07-18T15:10:58Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - SAFARI: Safe and Active Robot Imitation Learning with Imagination [16.967930721746676]
SAFARIは、新しい能動的学習制御アルゴリズムである。
これにより、エージェントは、これらのアウト・オブ・ディストリビューションの状況が満たされたときに、さらに人間のデモを要求することができる。
本手法により, エージェントが自律的に障害を迅速かつ安全に予測できることを示す。
論文 参考訳(メタデータ) (2020-11-18T23:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。