論文の概要: Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms
- arxiv url: http://arxiv.org/abs/2103.03697v1
- Date: Fri, 5 Mar 2021 14:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:45:00.175039
- Title: Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms
- Title(参考訳): ロボットプラットフォーム間のFew-Shot Policy Adaptationのためのベイズメタラーニング
- Authors: Ali Ghadirzadeh, Xi Chen, Petra Poklukar, Chelsea Finn, M{\aa}rten
Bj\"orkman and Danica Kragic
- Abstract要約: 強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
- 参考スコア(独自算出の注目度): 60.59764170868101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning methods can achieve significant performance but
require a large amount of training data collected on the same robotic platform.
A policy trained with expensive data is rendered useless after making even a
minor change to the robot hardware. In this paper, we address the challenging
problem of adapting a policy, trained to perform a task, to a novel robotic
hardware platform given only few demonstrations of robot motion trajectories on
the target robot. We formulate it as a few-shot meta-learning problem where the
goal is to find a meta-model that captures the common structure shared across
different robotic platforms such that data-efficient adaptation can be
performed. We achieve such adaptation by introducing a learning framework
consisting of a probabilistic gradient-based meta-learning algorithm that
models the uncertainty arising from the few-shot setting with a low-dimensional
latent variable. We experimentally evaluate our framework on a simulated
reaching and a real-robot picking task using 400 simulated robots generated by
varying the physical parameters of an existing set of robotic platforms. Our
results show that the proposed method can successfully adapt a trained policy
to different robotic platforms with novel physical parameters and the
superiority of our meta-learning algorithm compared to state-of-the-art methods
for the introduced few-shot policy adaptation problem.
- Abstract(参考訳): 強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
高価なデータで訓練されたポリシーは、ロボットハードウェアに小さな変更を加えても役に立たない。
本稿では,ロボットの動作軌跡を対象ロボットにわずかに示すだけで,タスクを実行するために訓練されたポリシーを,新しいロボットハードウェアプラットフォームに適応させるという課題に対処する。
データ効率のよい適応を可能にするために、さまざまなロボットプラットフォームで共有される共通の構造を捉えるメタモデルを見つけることが目的です。
低次元潜伏変数を用いた数ショット設定から生じる不確かさをモデル化する確率的勾配に基づくメタラーニングアルゴリズムによる学習フレームワークを導入することにより、そのような適応を実現する。
既存のロボットプラットフォームの物理パラメータを変化させた400台のシミュレートロボットを用いて,シミュレーションリーチと実ロボットピッキングタスクの枠組みを実験的に評価した。
提案手法は,新しい物理パラメータとメタラーニングアルゴリズムの優越性を持つ異なるロボットプラットフォームに対して,導入されるマイナショット・ポリシー適応問題に対する最先端手法と比較して,訓練されたポリシーをうまく適用できることを示す。
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Learning compositional models of robot skills for task and motion
planning [39.36562555272779]
センサモレータプリミティブを用いて複雑な長距離操作問題を解決することを学ぶ。
能動的学習とサンプリングに最先端の手法を用いる。
我々は,選択した原始行動の質を計測することで,シミュレーションと実世界の双方でアプローチを評価する。
論文 参考訳(メタデータ) (2020-06-08T20:45:34Z) - Fast Online Adaptation in Robotics through Meta-Learning Embeddings of
Simulated Priors [3.4376560669160385]
現実の世界では、ロボットはモーターの故障から岩の多い地形で自分自身を見つけるまで、あらゆる状況に遭遇するかもしれない。
FAMLEにより、ロボットはベースラインよりもはるかに少ない時間で、新たな損傷に適応できることを示す。
論文 参考訳(メタデータ) (2020-03-10T12:37:52Z) - Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning [65.88200578485316]
本稿では,ロボットが動的変化に迅速に適応できるメタ学習手法を提案する。
提案手法は高雑音環境における動的変化への適応性を著しく改善する。
我々は、動的に変化しながら歩くことを学習する四足歩行ロボットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-03-02T22:56:27Z) - Autonomous Planning Based on Spatial Concepts to Tidy Up Home
Environments with Service Robots [5.739787445246959]
本研究では,確率的生成モデルのパラメータを学習することにより,対象物の順序や位置を効率的に推定できる新しい計画法を提案する。
このモデルにより、ロボットは、Tidied環境で収集されたマルチモーダルセンサ情報を用いて、オブジェクトと場所の共起確率の分布を学習することができる。
我々は,世界ロボットサミット2018国際ロボティクスコンペティションのTidy Up Hereタスクの条件を再現する実験シミュレーションにより,提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2020-02-10T11:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。