論文の概要: Distilling Motion Planner Augmented Policies into Visual Control
Policies for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2111.06383v1
- Date: Thu, 11 Nov 2021 18:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 14:29:49.851846
- Title: Distilling Motion Planner Augmented Policies into Visual Control
Policies for Robot Manipulation
- Title(参考訳): ロボット操作のための視覚制御ポリシーへの運動プランナーの蒸留
- Authors: I-Chun Arthur Liu and Shagun Uppal and Gaurav S. Sukhatme and Joseph
J. Lim and Peter Englert and Youngwoon Lee
- Abstract要約: 我々は,国家ベースのモーションプランナ拡張ポリシーを視覚制御ポリシーに蒸留することを提案する。
閉塞環境における3つの操作課題について評価を行った。
我々のフレームワークはサンプリング効率が高く、最先端のアルゴリズムよりも優れています。
- 参考スコア(独自算出の注目度): 26.47544415550067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning complex manipulation tasks in realistic, obstructed environments is
a challenging problem due to hard exploration in the presence of obstacles and
high-dimensional visual observations. Prior work tackles the exploration
problem by integrating motion planning and reinforcement learning. However, the
motion planner augmented policy requires access to state information, which is
often not available in the real-world settings. To this end, we propose to
distill a state-based motion planner augmented policy to a visual control
policy via (1) visual behavioral cloning to remove the motion planner
dependency along with its jittery motion, and (2) vision-based reinforcement
learning with the guidance of the smoothed trajectories from the behavioral
cloning agent. We evaluate our method on three manipulation tasks in obstructed
environments and compare it against various reinforcement learning and
imitation learning baselines. The results demonstrate that our framework is
highly sample-efficient and outperforms the state-of-the-art algorithms.
Moreover, coupled with domain randomization, our policy is capable of zero-shot
transfer to unseen environment settings with distractors. Code and videos are
available at https://clvrai.com/mopa-pd
- Abstract(参考訳): 現実的で障害のある環境で複雑な操作タスクを学習することは、障害物の存在や高次元の視覚的観察が難しいため、難しい問題である。
先行研究は、運動計画と強化学習を統合して探索問題に取り組む。
しかし、モーションプランナー拡張ポリシーでは状態情報へのアクセスが必要であり、現実の設定では利用できないことが多い。
そこで本研究では,(1)視覚的行動クローン化による動作プランナ依存性の除去と,(2)動作クローン化剤からのスムーズな軌跡の誘導による視覚的強化学習により,状態ベースの運動プランナ拡張ポリシを視覚制御ポリシに蒸留することを提案する。
閉塞環境における3つの操作課題について評価し,様々な強化学習や模倣学習ベースラインと比較した。
その結果、このフレームワークはサンプル効率が高く、最先端のアルゴリズムよりも優れています。
さらに,ドメインのランダム化と相まって,注意をそそらない環境設定へのゼロショット転送が可能となる。
コードとビデオはhttps://clvrai.com/mopa-pdで入手できる。
関連論文リスト
- RoboKoop: Efficient Control Conditioned Representations from Visual Input in Robotics using Koopman Operator [14.77553682217217]
本研究では,高次元潜在空間におけるエージェントの視覚データから効率的な線形化視覚表現を学習するコントラストスペクトル・クープマン埋め込みネットワークを提案する。
本手法は、時間とともに勾配力学の安定性と制御を向上し、既存の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-09-04T22:14:59Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。
トレーニング環境との膨大な数のオンラインインタラクションが必要です。
本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T17:58:22Z) - Learning Pneumatic Non-Prehensile Manipulation with a Mobile Blower [30.032847855193864]
管制官は 常に 行動の予期せぬ変化に 適応しなければならない。
本稿では,空間行動マップフレームワークのマルチ周波数バージョンを紹介する。
これにより、高レベルの計画と低レベルのクローズドループ制御を効果的に組み合わせたビジョンベースのポリシーの効率的な学習が可能になる。
論文 参考訳(メタデータ) (2022-04-05T17:55:58Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。