論文の概要: ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis
- arxiv url: http://arxiv.org/abs/2503.14526v1
- Date: Sat, 15 Mar 2025 16:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:21:52.223285
- Title: ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis
- Title(参考訳): ReBot: 実物から実物へのロボットビデオ合成によるロボット学習のスケーリング
- Authors: Yu Fang, Yue Yang, Xinghao Zhu, Kaiyuan Zheng, Gedas Bertasius, Daniel Szafir, Mingyu Ding,
- Abstract要約: ReBotは、実際のロボットデータセットをスケーリングするための、新しいリアル・トゥ・シミュレート・トゥ・リアルのアプローチである。
ReBotは視覚言語アクション(VLA)モデルの性能とロバスト性を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 39.50916343607966
- License:
- Abstract: Vision-language-action (VLA) models present a promising paradigm by training policies directly on real robot datasets like Open X-Embodiment. However, the high cost of real-world data collection hinders further data scaling, thereby restricting the generalizability of VLAs. In this paper, we introduce ReBot, a novel real-to-sim-to-real approach for scaling real robot datasets and adapting VLA models to target domains, which is the last-mile deployment challenge in robot manipulation. Specifically, ReBot replays real-world robot trajectories in simulation to diversify manipulated objects (real-to-sim), and integrates the simulated movements with inpainted real-world background to synthesize physically realistic and temporally consistent robot videos (sim-to-real). Our approach has several advantages: 1) it enjoys the benefit of real data to minimize the sim-to-real gap; 2) it leverages the scalability of simulation; and 3) it can generalize a pretrained VLA to a target domain with fully automated data pipelines. Extensive experiments in both simulation and real-world environments show that ReBot significantly enhances the performance and robustness of VLAs. For example, in SimplerEnv with the WidowX robot, ReBot improved the in-domain performance of Octo by 7.2% and OpenVLA by 21.8%, and out-of-domain generalization by 19.9% and 9.4%, respectively. For real-world evaluation with a Franka robot, ReBot increased the success rates of Octo by 17% and OpenVLA by 20%. More information can be found at: https://yuffish.github.io/rebot/
- Abstract(参考訳): ビジョン言語アクション(VLA)モデルは、Open X-Embodimentのような実際のロボットデータセットに直接ポリシーをトレーニングすることで、有望なパラダイムを提供する。
しかし、実際のデータ収集の高コストは、さらなるデータスケーリングを妨げるため、VLAの一般化が制限される。
本稿では、実際のロボットデータセットをスケーリングし、VLAモデルをターゲットドメインに適応するための、ReBotを紹介する。
具体的には、ReBotは現実世界のロボットの軌跡をシミュレーションで再現し、操作対象(実物から実物)を多様化させ、シミュレートされた動きを印字された現実世界の背景と統合し、物理的にリアルで時間的に一貫したロボットビデオ(シミュレート・トゥ・リアル)を合成する。
私たちのアプローチにはいくつかの利点があります。
1) sim-to-realギャップを最小限に抑えるために、実際のデータの利点を享受する。
2)シミュレーションのスケーラビリティを活用し、
3) トレーニング済みのVLAを、完全に自動化されたデータパイプラインでターゲットドメインに一般化することができる。
シミュレーションと実環境の両方における大規模な実験により、ReBotはVLAの性能と堅牢性を大幅に向上させることが示された。
例えば、SimplerEnvとWidowXロボットでは、ReBotはOctoのドメイン内性能を7.2%改善し、OpenVLAは21.8%改善し、ドメイン外一般化は19.9%、OpenVLAは9.4%改善した。
フランカロボットを用いた実世界評価では、ReBotはOctoの成功率を17%、OpenVLAを20%向上させた。
詳細は、https://yuffish.github.io/rebot/.com/で確認できる。
関連論文リスト
- HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression [23.99292102237088]
本稿では,アクション・ビデオ・ダイナミックスをモデル化するためのヘテロジニアス・マスケッド・オートレグレス(HMA)を提案する。
ポストトレーニング後、このモデルは、ポリシーを評価し、合成データを生成するためのビデオシミュレータとして使用できる。
論文 参考訳(メタデータ) (2025-02-06T18:38:26Z) - RoboGSim: A Real2Sim2Real Robotic Gaussian Splatting Simulator [27.04267700576422]
RoboGSimは本物の2sim2realのロボットシミュレータで、3Dガウシアン・スプレイティングと物理エンジンで動く。
シミュレーションされたデータを、新しいビュー、オブジェクト、軌跡、シーンで合成することができる。
実数2simとsim2realの転写実験は、テクスチャと物理において高い一貫性を示す。
論文 参考訳(メタデータ) (2024-11-18T18:58:03Z) - GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - IRASim: Learning Interactive Real-Robot Action Simulators [24.591694756757278]
本稿では,ロボットアームが与えられた動作軌跡を実行する様子をリアルに映像化するための新しい手法IRASimを提案する。
提案手法の有効性を検証するため,3つの実ロボットデータセットに基づいて,新しいベンチマーク IRASim Benchmark を作成する。
その結果, IRASimはすべての基準法より優れており, 人的評価に好適であることが示唆された。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - Real-time Holistic Robot Pose Estimation with Unknown States [30.41806081818826]
RGB画像からロボットのポーズを推定することは、コンピュータビジョンとロボット工学において重要な問題である。
従来の手法では、例えば接地型ロボットの関節角など、ロボットの内部状態の完全な知識が想定されていた。
本研究は,RGB画像からリアルタイムロボットのポーズ推定を行う上で,既知のロボットの状態を必要としない効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-08T13:12:50Z) - OmniLRS: A Photorealistic Simulator for Lunar Robotics [2.6718643310547607]
私たちはNvidiaのロボットシミュレータであるIsaac SimをベースにしたLunarシミュレータをどうやって構築したのかを説明します。
このシミュレーションは、高速な手続き環境生成、マルチボット機能、および機械学習アプリケーションのための合成データパイプラインを提供する。
論文 参考訳(メタデータ) (2023-09-16T13:48:47Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。