論文の概要: Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.10190v2
- Date: Fri, 31 Jul 2020 13:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 05:55:09.554031
- Title: Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning
- Title(参考訳): never stop learning: ロボット強化学習における微調整の有効性
- Authors: Ryan Julian, Benjamin Swanson, Gaurav S. Sukhatme, Sergey Levine,
Chelsea Finn, and Karol Hausman
- Abstract要約: 本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
- 参考スコア(独自算出の注目度): 109.77163932886413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the great promises of robot learning systems is that they will be able
to learn from their mistakes and continuously adapt to ever-changing
environments. Despite this potential, most of the robot learning systems today
are deployed as a fixed policy and they are not being adapted after their
deployment. Can we efficiently adapt previously learned behaviors to new
environments, objects and percepts in the real world? In this paper, we present
a method and empirical evidence towards a robot learning framework that
facilitates continuous adaption. In particular, we demonstrate how to adapt
vision-based robotic manipulation policies to new variations by fine-tuning via
off-policy reinforcement learning, including changes in background, object
shape and appearance, lighting conditions, and robot morphology. Further, this
adaptation uses less than 0.2% of the data necessary to learn the task from
scratch. We find that our approach of adapting pre-trained policies leads to
substantial performance gains over the course of fine-tuning, and that
pre-training via RL is essential: training from scratch or adapting from
supervised ImageNet features are both unsuccessful with such small amounts of
data. We also find that these positive results hold in a limited continual
learning setting, in which we repeatedly fine-tune a single lineage of policies
using data from a succession of new tasks. Our empirical conclusions are
consistently supported by experiments on simulated manipulation tasks, and by
52 unique fine-tuning experiments on a real robotic grasping system pre-trained
on 580,000 grasps.
- Abstract(参考訳): ロボット学習システムの大きな約束の一つは、過ちから学び、絶えず変化する環境に適応できることだ。
この可能性にもかかわらず、今日のロボット学習システムのほとんどは、固定ポリシーとしてデプロイされており、デプロイ後に適応されていない。
学習済みの振る舞いを、現実世界の新しい環境、オブジェクト、パーセプションに効率的に適応できるだろうか?
本稿では,継続的な適応を促進するロボット学習フレームワークのための手法と実証的証拠を提案する。
特に, 背景, 物体形状, 外観, 照明条件, ロボット形態の変化など, オフポリシー強化学習による微調整により, 視覚に基づくロボット操作ポリシを新たなバリエーションに適用する方法を実証する。
さらに、この適応はタスクをゼロから学習するために必要なデータの0.2%未満を使用する。
私たちは、事前トレーニングされたポリシーを適用するアプローチが、微調整の過程でかなりのパフォーマンス向上につながること、rlによる事前トレーニングが不可欠であることを見出します。
また、これらの肯定的な結果は、連続的な学習環境に限られており、新しいタスクの連続したデータを用いて、単一のポリシーの行を繰り返し微調整する。
我々の経験的な結論は、シミュレーション操作タスクの実験と、580,000の把持で事前訓練された実際のロボット把持システムに関する52のユニークな微調整実験によって一貫して支持されている。
関連論文リスト
- VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning [36.0274770291531]
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquibotを提案する。
提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。
本手法は,5分間の人間による実演から学ぶことで,新しい物体やシーンに容易に一般化できることが示唆された。
論文 参考訳(メタデータ) (2024-07-01T17:09:43Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。