論文の概要: RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.14830v1
- Date: Thu, 16 Oct 2025 16:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.93872
- Title: RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning
- Title(参考訳): RL-100:実世界強化学習による高性能ロボットマニピュレーション
- Authors: Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu,
- Abstract要約: 本稿では,bu教師学習を訓練した拡散振動子ポリシーに基づく実世界の強化学習フレームワークRL-100を提案する。
我々はPush-TやAgile Bowlingといった動的剛体制御にまたがる7つの実ロボットタスクに対してRL-100を評価する。
RL-100は900回中900回で評価試験で100%成功し、1回で250回連続試験のうち250回まで成功している。
- 参考スコア(独自算出の注目度): 33.36533022574748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world robotic manipulation in homes and factories demands reliability, efficiency, and robustness that approach or surpass skilled human operators. We present RL-100, a real-world reinforcement learning training framework built on diffusion visuomotor policies trained bu supervised learning. RL-100 introduces a three-stage pipeline. First, imitation learning leverages human priors. Second, iterative offline reinforcement learning uses an Offline Policy Evaluation procedure, abbreviated OPE, to gate PPO-style updates that are applied in the denoising process for conservative and reliable improvement. Third, online reinforcement learning eliminates residual failure modes. An additional lightweight consistency distillation head compresses the multi-step sampling process in diffusion into a single-step policy, enabling high-frequency control with an order-of-magnitude reduction in latency while preserving task performance. The framework is task-, embodiment-, and representation-agnostic and supports both 3D point clouds and 2D RGB inputs, a variety of robot platforms, and both single-step and action-chunk policies. We evaluate RL-100 on seven real-robot tasks spanning dynamic rigid-body control, such as Push-T and Agile Bowling, fluids and granular pouring, deformable cloth folding, precise dexterous unscrewing, and multi-stage orange juicing. RL-100 attains 100\% success across evaluated trials for a total of 900 out of 900 episodes, including up to 250 out of 250 consecutive trials on one task. The method achieves near-human teleoperation or better time efficiency and demonstrates multi-hour robustness with uninterrupted operation lasting up to two hours.
- Abstract(参考訳): 家庭や工場における現実のロボット操作は、熟練した人間のオペレーターに近づいたり、追い越したりする信頼性、効率、堅牢性を必要とする。
RL-100は,bu教師学習を訓練した拡散振動子ポリシーに基づく実世界の強化学習訓練フレームワークである。
RL-100は3段パイプラインを導入している。
まず、模倣学習は人間の先入観を活用する。
第2に、反復的オフライン強化学習は、オフラインポリシー評価手順(略称OPE)を使用して、保守的かつ信頼性の高い改善のための演示プロセスに適用されるPPOスタイルの更新をゲートする。
第3に、オンライン強化学習は、残りの障害モードを排除します。
追加の軽量整合蒸留ヘッドは、単一ステップポリシーへの拡散における多段階サンプリングプロセスを圧縮し、タスク性能を保ちながら、遅延のオーダー・オブ・マグニチュード低減による高周波制御を可能にする。
このフレームワークは3Dポイントクラウドと2D RGB入力の両方をサポートし、さまざまなロボットプラットフォーム、シングルステップおよびアクションチャンクポリシーをサポートする。
RL-100はPush-TやAgile Bowlingといった動的剛体制御,流体および粒状沈下,変形可能な布の折り畳み,精密なデキスタス解凍,多段オレンジのジューシングなど,7つの実ロボットタスクに対して評価した。
RL-100は、900回中900回中、250回中最大250回を含む評価試験で100倍の成功を収めた。
ほぼ人間に近い遠隔操作やより優れた時間効率を実現し、中断しない動作で最大2時間持続するマルチ時間ロバスト性を示す。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
MenTORは3つのシミュレーションベンチマークで最先端の手法を上回り、挑戦的な3つの現実世界のロボット操作タスクで平均83%の成功率を達成した。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Real-Time Model-Free Deep Reinforcement Learning for Force Control of a
Series Elastic Actuator [56.11574814802912]
最先端のロボットアプリケーションは、歩行、揚力、操作などの複雑なタスクを達成するために、閉ループ力制御を備えた連続弾性アクチュエータ(SEAs)を使用する。
モデルフリーPID制御法はSEAの非線形性により不安定になりやすい。
深層強化学習は連続制御タスクに有効なモデルレス手法であることが証明されている。
論文 参考訳(メタデータ) (2023-04-11T00:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。