論文の概要: Residual Off-Policy RL for Finetuning Behavior Cloning Policies
- arxiv url: http://arxiv.org/abs/2509.19301v2
- Date: Thu, 25 Sep 2025 20:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 12:12:20.316365
- Title: Residual Off-Policy RL for Finetuning Behavior Cloning Policies
- Title(参考訳): 残留オフポリシィRLによる微細化挙動のクローン化
- Authors: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi,
- Abstract要約: 本稿では,行動クローニング(BC)と強化学習(RL)の利点を組み合わせたレシピを提案する。
提案手法は疎二元報酬信号のみを必要とするため,高次自由度(DoF)システムの操作ポリシーを効果的に改善することができる。
特に、私たちの知る限りでは、人型ロボットによる実世界初のRLトレーニングが成功しました。
- 参考スコア(独自算出の注目度): 41.99435186991878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in behavior cloning (BC) have enabled impressive visuomotor control policies. However, these approaches are limited by the quality of human demonstrations, the manual effort required for data collection, and the diminishing returns from offline data. In comparison, reinforcement learning (RL) trains an agent through autonomous interaction with the environment and has shown remarkable success in various domains. Still, training RL policies directly on real-world robots remains challenging due to sample inefficiency, safety concerns, and the difficulty of learning from sparse rewards for long-horizon tasks, especially for high-degree-of-freedom (DoF) systems. We present a recipe that combines the benefits of BC and RL through a residual learning framework. Our approach leverages BC policies as black-box bases and learns lightweight per-step residual corrections via sample-efficient off-policy RL. We demonstrate that our method requires only sparse binary reward signals and can effectively improve manipulation policies on high-degree-of-freedom (DoF) systems in both simulation and the real world. In particular, we demonstrate, to the best of our knowledge, the first successful real-world RL training on a humanoid robot with dexterous hands. Our results demonstrate state-of-the-art performance in various vision-based tasks, pointing towards a practical pathway for deploying RL in the real world.
- Abstract(参考訳): 近年の行動クローニング (BC) により, 目覚しい視運動制御が実現されている。
しかしながら、これらのアプローチは、人間のデモの品質、データ収集に必要な手作業、オフラインデータからのリターンの減少によって制限されている。
これに対し、強化学習(RL)は環境との自律的な相互作用を通じてエージェントを訓練し、様々な領域で顕著な成功を収めた。
それでも、実世界のロボットに直接RLポリシーを訓練することは、サンプルの非効率性、安全性の懸念、特に高自由度(DoF)システムにおいて、長期的タスクに対するまばらな報酬から学ぶことの難しさにより、依然として困難である。
残差学習フレームワークを用いて,BCとRLの利点を組み合わせたレシピを提案する。
提案手法は,BC ポリシーをブラックボックスベースとして活用し,サンプル効率のよいオフポリチック RL を用いて,ステップ毎の残差補正を軽量に学習する。
提案手法は疎二元報酬信号のみを必要とすることを実証し,シミュレーションと実世界の両面でのDoF(High-degree-of-freedom)システムの操作ポリシーを効果的に改善できることを実証する。
特に、私たちの知る限りでは、人型ロボットによる実世界初のRLトレーニングが成功しました。
本研究は,実世界におけるRL導入の実践的経路をめざして,様々な視覚に基づくタスクにおける最先端性能を示すものである。
関連論文リスト
- Online Process Reward Leanring for Agentic Reinforcement Learning [92.26560379363492]
大規模言語モデル(LLM)は、強化学習(RL)を自律的なエージェントとして訓練されることが増えている。
最近の研究は、プロセスの監視をエージェント学習に統合しようと試みているが、バイアスドアノテーションに悩まされている。
エージェントRLの一般的なクレジットアサインメント戦略であるオンライン・プロセス・リワード・ラーニング(OPRL)を紹介する。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。