論文の概要: GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.01801v2
- Date: Tue, 02 Dec 2025 15:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.107502
- Title: GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
- Title(参考訳): GR-RL:長軸ロボットマニピュレーションのデクサラス化と高精度化
- Authors: Yunfei Li, Xiao Ma, Jiafeng Xu, Yu Cui, Zhongren Cui, Zhigang Han, Liqun Huang, Tao Kong, Yuxiao Liu, Hao Niu, Wanli Peng, Jingchao Qiao, Zeyu Ren, Haixin Shi, Zhi Su, Jiawen Tian, Yuyang Xiao, Shenyu Zhang, Liwei Zheng, Hang Li, Yonghui Wu,
- Abstract要約: 本稿では,汎用的な視覚-言語-アクション(VLA)ポリシーを,長期的外的操作のスペシャリストに変えるロボット学習フレームワークGR-RLを提案する。
GR-RLは、強化学習によってデモをフィルタリング、拡張、強化するマルチステージトレーニングパイプラインを提案する。
GR-RLは、私たちの知る限り、83.3%の成功率で靴ひもを複数のアイレットに縫い付けることで、自律的に靴を履くことができる最初の学習ベースのポリシーである。
- 参考スコア(独自算出の注目度): 29.09129630720378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GR-RL, a robotic learning framework that turns a generalist vision-language-action (VLA) policy into a highly capable specialist for long-horizon dexterous manipulation. Assuming the optimality of human demonstrations is core to existing VLA policies. However, we claim that in highly dexterous and precise manipulation tasks, human demonstrations are noisy and suboptimal. GR-RL proposes a multi-stage training pipeline that filters, augments, and reinforces the demonstrations by reinforcement learning. First, GR-RL learns a vision-language-conditioned task progress, filters the demonstration trajectories, and only keeps the transitions that contribute positively to the progress. Specifically, we show that by directly applying offline RL with sparse reward, the resulting $Q$-values can be treated as a robust progress function. Next, we introduce morphological symmetry augmentation that greatly improves the generalization and performance of GR-RL. Lastly, to better align the VLA policy with its deployment behaviors for high-precision control, we perform online RL by learning a latent space noise predictor. With this pipeline, GR-RL is, to our knowledge, the first learning-based policy that can autonomously lace up a shoe by threading shoelaces through multiple eyelets with an 83.3% success rate, a task requiring long-horizon reasoning, millimeter-level precision, and compliant soft-body interaction. We hope GR-RL provides a step toward enabling generalist robot foundations models to specialize into reliable real-world experts.
- Abstract(参考訳): 本稿では,汎用的な視覚-言語-アクション(VLA)ポリシーを,長期的操作のための高度な専門知識に転換するロボット学習フレームワークGR-RLを提案する。
人間のデモンストレーションの最適性を仮定することは、既存のVLAポリシーの中核である。
しかし、厳密で精密な操作タスクでは、人間のデモはうるさいし、準最適であると主張する。
GR-RLは、強化学習によってデモをフィルタリング、拡張、強化するマルチステージトレーニングパイプラインを提案する。
まず、GR-RLは視覚言語で条件付けられたタスクの進行を学習し、実演軌跡をフィルタリングし、進行に肯定的に寄与する遷移のみを保持する。
具体的には、オフラインのRLにスパース報酬を直接適用することにより、結果として得られる$Q$-valueを堅牢なプログレス関数として扱うことができることを示す。
次に,GR-RLの一般化と性能を大幅に向上させる形態的対称性の増大を導入する。
最後に、VLAポリシーと高精度制御のためのデプロイメント動作をよりよく整合させるため、潜時空間雑音予測器を学習してオンラインRLを実行する。
このパイプラインでGR-RLは、私たちの知る限り、靴紐を83.3%の成功率、長期の推論、ミリレベルの精度、および適合したソフトボディの相互作用を必要とするタスクで、複数のアイレットを通して自律的に靴を編むことができる最初の学習ベースのポリシーである。
GR-RLは、ジェネラリストロボット基盤モデルが信頼性の高い現実世界の専門家に特化できるようにするためのステップを提供することを期待している。
関連論文リスト
- Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories [33.872433985210876]
視覚-言語-アクション(VLA)モデルの事前訓練には、多種多様な高品質な操作軌跡が必要となる。
本稿では,VLA事前学習のための複数の異なる高精度な行動パターンを生成するDiscover,Lea rn,Reinforceを提案する。
ダウンストリームのタスクスイートに適応すると、VLAモデルは、同じサイズの標準RLデータセットでトレーニングされたデータセットよりも、多様なRLデータで事前訓練された。
論文 参考訳(メタデータ) (2025-11-24T07:54:49Z) - From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - Residual Off-Policy RL for Finetuning Behavior Cloning Policies [41.99435186991878]
本稿では,行動クローニング(BC)と強化学習(RL)の利点を組み合わせたレシピを提案する。
提案手法は疎二元報酬信号のみを必要とするため,高次自由度(DoF)システムの操作ポリシーを効果的に改善することができる。
特に、私たちの知る限りでは、人型ロボットによる実世界初のRLトレーニングが成功しました。
論文 参考訳(メタデータ) (2025-09-23T17:59:46Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。
我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。
以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-13T04:57:55Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。