論文の概要: RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction
- arxiv url: http://arxiv.org/abs/2509.07953v1
- Date: Tue, 09 Sep 2025 17:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.426859
- Title: RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction
- Title(参考訳): RaC: 回復と補正のスケーリングによる長距離タスクのためのロボット学習
- Authors: Zheyuan Hu, Robyn Wu, Naveen Enock, Jasmine Li, Riya Kadakia, Zackory Erickson, Aviral Kumar,
- Abstract要約: 本稿では,擬似学習事前学習後のループ内ロールアウトトレーニングの新たな段階であるRaCを紹介する。
RaCでは、リカバリと修正行動を示す人間の介入軌道に関するロボットポリシーを微調整する。
我々は、RaCが10$times$少ないデータ収集時間とサンプルを使用して、従来の最先端技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 23.89121398540929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern paradigms for robot imitation train expressive policy architectures on large amounts of human demonstration data. Yet performance on contact-rich, deformable-object, and long-horizon tasks plateau far below perfect execution, even with thousands of expert demonstrations. This is due to the inefficiency of existing ``expert'' data collection procedures based on human teleoperation. To address this issue, we introduce RaC, a new phase of training on human-in-the-loop rollouts after imitation learning pre-training. In RaC, we fine-tune a robotic policy on human intervention trajectories that illustrate recovery and correction behaviors. Specifically, during a policy rollout, human operators intervene when failure appears imminent, first rewinding the robot back to a familiar, in-distribution state and then providing a corrective segment that completes the current sub-task. Training on this data composition expands the robotic skill repertoire to include retry and adaptation behaviors, which we show are crucial for boosting both efficiency and robustness on long-horizon tasks. Across three real-world bimanual control tasks: shirt hanging, airtight container lid sealing, takeout box packing, and a simulated assembly task, RaC outperforms the prior state-of-the-art using 10$\times$ less data collection time and samples. We also show that RaC enables test-time scaling: the performance of the trained RaC policy scales linearly in the number of recovery maneuvers it exhibits. Videos of the learned policy are available at https://rac-scaling-robot.github.io/.
- Abstract(参考訳): ロボット模倣の現代的なパラダイムは、大量の人間の実演データに基づいて表現的ポリシーアーキテクチャを訓練する。
しかし、コンタクトに富んだ、変形可能なオブジェクト、長い水平タスクのパフォーマンスは、何千もの専門家によるデモンストレーションでさえ、完璧な実行よりもはるかに低い。
これは、人間の遠隔操作に基づく既存の ``expert'' データ収集手順の効率が悪いためである。
この問題に対処するため,本研究では,擬似学習事前学習後のループ内ロールアウトトレーニングの新たな段階であるRaCを紹介する。
RaCでは、リカバリと修正行動を示す人間の介入軌道に関するロボットポリシーを微調整する。
具体的には、ポリシーのロールアウト中に、障害が差し迫った時に人間のオペレーターが介入し、まずロボットを慣れ親しんだ非配布状態に戻し、次に現在のサブタスクを完成させる修正セグメントを提供する。
このデータ構成のトレーニングは、ロボットのスキルレパートリーを拡張して、リトライと適応の振る舞いを含める。
シャツの吊り下げ、エアタイトなコンテナの蓋のシール、テイクアウトボックスの梱包、シミュレートされた組み立てタスクの3つの実世界のバイマチュアルコントロールタスクで、RaCは10$\times$データ収集時間とサンプルを減らして、それまでの状態よりも優れています。
また、RaCがテストタイムスケーリングを可能にすることを示し、トレーニングされたRaCポリシーのパフォーマンスは、それらが示すリカバリ操作の数で線形にスケールする。
学習したポリシーのビデオはhttps://rac-scaling-robot.github.io/で公開されている。
関連論文リスト
- H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation [27.585828712261232]
H-RDT(Human to Robotics Diffusion Transformer)は、人間の操作データを利用してロボット操作能力を向上する新しいアプローチである。
私たちの重要な洞察は、大規模なエゴセントリックな人間操作ビデオとペアの3Dハンドポーズアノテーションが、自然な操作戦略を捉えたリッチな行動優先を提供するということです。
本研究では,(1)大規模な人間操作データに対する事前トレーニング,(2)モジュール型アクションエンコーダとデコーダを用いたロボット固有のデータに対するクロスエボディメント微調整という2段階の訓練パラダイムを導入する。
論文 参考訳(メタデータ) (2025-07-31T13:06:59Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning
During Deployment [25.186525630548356]
Siriusは、人間とロボットが共同作業を行うための、原則化されたフレームワークである。
部分的に自律的なロボットは、意思決定の大部分を確実に行うことを任務としている。
タスク実行から収集したデータに対するポリシーの性能を改善するための新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T18:53:39Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。