論文の概要: FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning
- arxiv url: http://arxiv.org/abs/2409.16578v2
- Date: Mon, 30 Sep 2024 21:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:34:07.417789
- Title: FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning
- Title(参考訳): FLaRe: 大規模強化学習ファインチューニングによる熟練した適応型ロボットポリシーの実現
- Authors: Jiaheng Hu, Rose Hendrix, Ali Farhadi, Aniruddha Kembhavi, Roberto Martin-Martin, Peter Stone, Kuo-Hao Zeng, Kiana Ehsani,
- Abstract要約: FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 74.25049012472502
- License:
- Abstract: In recent years, the Robotics field has initiated several efforts toward building generalist robot policies through large-scale multi-task Behavior Cloning. However, direct deployments of these policies have led to unsatisfactory performance, where the policy struggles with unseen states and tasks. How can we break through the performance plateau of these models and elevate their capabilities to new heights? In this paper, we propose FLaRe, a large-scale Reinforcement Learning fine-tuning framework that integrates robust pre-trained representations, large-scale training, and gradient stabilization techniques. Our method aligns pre-trained policies towards task completion, achieving state-of-the-art (SoTA) performance both on previously demonstrated and on entirely novel tasks and embodiments. Specifically, on a set of long-horizon mobile manipulation tasks, FLaRe achieves an average success rate of 79.5% in unseen environments, with absolute improvements of +23.6% in simulation and +30.7% on real robots over prior SoTA methods. By utilizing only sparse rewards, our approach can enable generalizing to new capabilities beyond the pretraining data with minimal human effort. Moreover, we demonstrate rapid adaptation to new embodiments and behaviors with less than a day of fine-tuning. Videos can be found on the project website at https://robot-flare.github.io/
- Abstract(参考訳): 近年、ロボティクス分野は、大規模マルチタスク・ビヘイビア・クローンを通じて、汎用的なロボットポリシーを構築するためにいくつかの取り組みを開始している。
しかし、これらのポリシーの直接的な展開は、政策が目に見えない状態やタスクと競合する不満足なパフォーマンスにつながっている。
これらのモデルのパフォーマンス高原をどうやって突破し、その能力を新しい高さに高めることができるのか?
本稿では、堅牢な事前学習表現、大規模トレーニング、勾配安定化技術を統合した大規模強化学習微調整フレームワークであるFLaReを提案する。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,従来と全く新しいタスクと実施の両面で,最先端(SoTA)のパフォーマンスを達成する。
具体的には、長い水平移動操作タスクのセットにおいて、FLaReは目に見えない環境では平均79.5%の成功率を達成し、シミュレーションでは+23.6%、SOTAでは+30.7%の絶対的な改善を達成している。
スパース報酬のみを利用することで、人間の努力を最小限に抑えることで、事前学習データ以外の新たな能力への一般化が可能になる。
さらに,1日以内の微調整で新しい実施形態や行動に迅速に適応できることを示す。
ビデオはプロジェクトのWebサイトhttps://robot-flare.github.io/にある。
関連論文リスト
- Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
本稿では、視覚言語モデル(VLM)によって形成される報酬について研究し、ロボット学習における報酬の密度を定義する。
自然言語記述によって指定された実世界の操作タスクにおいて、これらの報酬は自律的RLのサンプル効率を向上させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning
During Deployment [25.186525630548356]
Siriusは、人間とロボットが共同作業を行うための、原則化されたフレームワークである。
部分的に自律的なロボットは、意思決定の大部分を確実に行うことを任務としている。
タスク実行から収集したデータに対するポリシーの性能を改善するための新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T18:53:39Z) - Fast Lifelong Adaptive Inverse Reinforcement Learning from
Demonstrations [1.6050172226234585]
我々は,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。
FLAIRが適応性(ロボットが不均一でユーザ固有のタスク嗜好に適応する)、効率(ロボットがサンプル効率のよい適応を達成する)、スケーラビリティを実証的に検証する。
FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、デモモデリングに必要なエピソードが平均78%減少した。
論文 参考訳(メタデータ) (2022-09-24T02:48:02Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Meta Reinforcement Learning-Based Lane Change Strategy for Autonomous
Vehicles [11.180588185127892]
教師付き学習アルゴリズムは、大量のラベル付きデータをトレーニングすることで、新しい環境に一般化することができる。
しばしば、新しい環境ごとに十分なデータを得るために、実用的または費用を抑えることができる。
エージェントの一般化能力を向上させるメタ強化学習(MRL)法を提案する。
論文 参考訳(メタデータ) (2020-08-28T02:57:11Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。