論文の概要: Learning visual servo policies via planner cloning
- arxiv url: http://arxiv.org/abs/2005.11810v1
- Date: Sun, 24 May 2020 17:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 13:34:30.162227
- Title: Learning visual servo policies via planner cloning
- Title(参考訳): プランナークローニングによる視覚サーボポリシーの学習
- Authors: Ulrich Viereck, Kate Saenko, Robert Platt
- Abstract要約: 本稿では,シミュレーションにおけるフルステート・モーション・プランナーの動作を模倣するポリシーを学ぶために,行動クローニングを利用するプランナーのクローンについて検討する。
そこで我々はPinalized Q Cloning (PQC) を提案する。
本研究では,新しい環境下での視覚サーボ問題に対して,障害物回避を図りながら,いくつかの基本点と改善点を達成していることを示す。
- 参考スコア(独自算出の注目度): 47.43072595982036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning control policies for visual servoing in novel environments is an
important problem. However, standard model-free policy learning methods are
slow. This paper explores planner cloning: using behavior cloning to learn
policies that mimic the behavior of a full-state motion planner in simulation.
We propose Penalized Q Cloning (PQC), a new behavior cloning algorithm. We show
that it outperforms several baselines and ablations on some challenging
problems involving visual servoing in novel environments while avoiding
obstacles. Finally, we demonstrate that these policies can be transferred
effectively onto a real robotic platform, achieving approximately an 87%
success rate both in simulation and on a real robot.
- Abstract(参考訳): 視覚サーボのための学習制御方針は重要な課題である。
しかし,標準モデルフリー政策学習手法は遅い。
本稿では,実状態の運動プランナーの挙動をシミュレーションで模倣する方針を学習するために,行動クローニングを用いたプランナーのクローニングについて検討する。
本稿では,新しい行動クローニングアルゴリズムであるpenalized q clone (pqc)を提案する。
新たな環境下での視覚サーボに関わるいくつかの課題において,いくつかのベースラインやアブレーションよりも優れており,障害を回避できることを示した。
最後に,これらのポリシーを実ロボットプラットフォームに効果的に移行できることを実証し,シミュレーションと実ロボットの両方において,約87%の成功率を達成した。
関連論文リスト
- Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。
提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。
シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:49:56Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - AGPNet -- Autonomous Grading Policy Network [0.5232537118394002]
マルコフ決定過程として問題を定式化し,エージェントと環境の相互作用を示すシミュレーションを設計する。
我々は、強化学習、行動クローニング、コントラスト学習などの手法を用いて、ハイブリッド政策を訓練する。
我々の訓練されたエージェントであるAGPNetは、人間レベルのパフォーマンスに達し、自律的なグルーピングタスクのために現在の最先端の機械学習手法より優れています。
論文 参考訳(メタデータ) (2021-12-20T21:44:21Z) - Distilling Motion Planner Augmented Policies into Visual Control
Policies for Robot Manipulation [26.47544415550067]
我々は,国家ベースのモーションプランナ拡張ポリシーを視覚制御ポリシーに蒸留することを提案する。
閉塞環境における3つの操作課題について評価を行った。
我々のフレームワークはサンプリング効率が高く、最先端のアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2021-11-11T18:52:00Z) - Passing Through Narrow Gaps with Deep Reinforcement Learning [2.299414848492227]
本稿では,小さな隙間を自律的に航行する深層強化学習手法を提案する。
我々はまず,ロボットとギャップとの接触が必要な小さなギャップを乗り越えるために,ギャップ行動ポリシーを学習する。
シミュレーション実験では,操作者が手動でギャップ動作を動作させると,93%の成功率が得られる。
実際のロボット実験では、手動アクティベーションで73%、自律的な行動選択で40%の成功率を達成した。
論文 参考訳(メタデータ) (2021-03-06T00:10:41Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。