論文の概要: Simulation-Aided Policy Tuning for Black-Box Robot Learning
- arxiv url: http://arxiv.org/abs/2411.14246v1
- Date: Thu, 21 Nov 2024 15:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:40.480541
- Title: Simulation-Aided Policy Tuning for Black-Box Robot Learning
- Title(参考訳): ブラックボックス型ロボット学習のためのシミュレーション支援型ポリシーチューニング
- Authors: Shiming He, Alexander von Rohr, Dominik Baumann, Ji Xiang, Sebastian Trimpe,
- Abstract要約: 本稿では,データ効率の向上に着目した新しいブラックボックスポリシー探索アルゴリズムを提案する。
このアルゴリズムはロボット上で直接学習し、シミュレーションを追加の情報源として扱い、学習プロセスを高速化する。
ロボットマニピュレータ上でのタスク学習の高速化と成功を,不完全なシミュレータの助けを借りて示す。
- 参考スコア(独自算出の注目度): 47.83474891747279
- License:
- Abstract: How can robots learn and adapt to new tasks and situations with little data? Systematic exploration and simulation are crucial tools for efficient robot learning. We present a novel black-box policy search algorithm focused on data-efficient policy improvements. The algorithm learns directly on the robot and treats simulation as an additional information source to speed up the learning process. At the core of the algorithm, a probabilistic model learns the dependence of the policy parameters and the robot learning objective not only by performing experiments on the robot, but also by leveraging data from a simulator. This substantially reduces interaction time with the robot. Using this model, we can guarantee improvements with high probability for each policy update, thereby facilitating fast, goal-oriented learning. We evaluate our algorithm on simulated fine-tuning tasks and demonstrate the data-efficiency of the proposed dual-information source optimization algorithm. In a real robot learning experiment, we show fast and successful task learning on a robot manipulator with the aid of an imperfect simulator.
- Abstract(参考訳): ロボットはどのようにして学習し、小さなデータで新しいタスクや状況に適応できるか?
体系的な探索とシミュレーションは、効率的なロボット学習にとって重要なツールである。
本稿では,データ効率の向上に着目した新しいブラックボックスポリシー探索アルゴリズムを提案する。
このアルゴリズムはロボット上で直接学習し、シミュレーションを学習プロセスの高速化のための追加情報源として扱う。
アルゴリズムのコアでは、確率モデルが、ロボットの実験を行うだけでなく、シミュレータからのデータを活用することにより、ポリシーパラメータとロボット学習目標の依存性を学習する。
これにより、ロボットとの相互作用時間が大幅に短縮される。
このモデルを用いることで、ポリシー更新毎に高い確率で改善が保証され、高速で目標指向の学習が容易になります。
シミュレーションされた微調整タスクにおけるアルゴリズムの評価を行い,提案アルゴリズムのデータ効率を実証した。
実際のロボット学習実験では,不完全なシミュレータの助けを借りて,ロボットマニピュレータ上で高速かつ良好なタスク学習を示す。
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Low Dimensional State Representation Learning with Reward-shaped Priors [7.211095654886105]
本研究では,観測結果から低次元状態空間への写像の学習を目的とした手法を提案する。
このマッピングは、環境とタスクの事前知識を組み込むために形作られた損失関数を用いて教師なしの学習で学習される。
本手法は,シミュレーション環境における移動ロボットナビゲーションタスクおよび実ロボット上でのテストを行う。
論文 参考訳(メタデータ) (2020-07-29T13:00:39Z) - Efficient reinforcement learning control for continuum robots based on
Inexplicit Prior Knowledge [3.3645162441357437]
本稿では,未熟な事前知識に基づく効率的な強化学習手法を提案する。
本手法を用いることで、腱駆動ロボットのアクティブな視覚追跡と距離維持を実現することができる。
論文 参考訳(メタデータ) (2020-02-26T15:47:11Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。