論文の概要: R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation
- arxiv url: http://arxiv.org/abs/2510.08547v1
- Date: Thu, 09 Oct 2025 17:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.293912
- Title: R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation
- Title(参考訳): R2RGEN:空間一般化マニピュレーションのためのリアルタイム3次元データ生成
- Authors: Xiuwei Xu, Angyuan Ma, Hankun Li, Bingyao Yu, Zheng Zhu, Jie Zhou, Jiwen Lu,
- Abstract要約: 本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
- 参考スコア(独自算出の注目度): 74.41728218960465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Towards the aim of generalized robotic manipulation, spatial generalization is the most fundamental capability that requires the policy to work robustly under different spatial distribution of objects, environment and agent itself. To achieve this, substantial human demonstrations need to be collected to cover different spatial configurations for training a generalized visuomotor policy via imitation learning. Prior works explore a promising direction that leverages data generation to acquire abundant spatially diverse data from minimal source demonstrations. However, most approaches face significant sim-to-real gap and are often limited to constrained settings, such as fixed-base scenarios and predefined camera viewpoints. In this paper, we propose a real-to-real 3D data generation framework (R2RGen) that directly augments the pointcloud observation-action pairs to generate real-world data. R2RGen is simulator- and rendering-free, thus being efficient and plug-and-play. Specifically, given a single source demonstration, we introduce an annotation mechanism for fine-grained parsing of scene and trajectory. A group-wise augmentation strategy is proposed to handle complex multi-object compositions and diverse task constraints. We further present camera-aware processing to align the distribution of generated data with real-world 3D sensor. Empirically, R2RGen substantially enhances data efficiency on extensive experiments and demonstrates strong potential for scaling and application on mobile manipulation.
- Abstract(参考訳): 一般化されたロボット操作の目的に向けて、空間一般化は、オブジェクト、環境、エージェント自体の異なる空間分布下での堅牢な動作を必要とする最も基本的な機能である。
これを実現するためには、模倣学習を通じて一般的な視覚運動政策を訓練するための異なる空間構成をカバーするために、実質的な人間のデモンストレーションを収集する必要がある。
これまでの研究は、データ生成を利用して、最小限のソースデモから豊富な空間的多様なデータを取得する、有望な方向を探していた。
しかし、ほとんどのアプローチは、大きなsim-to-realギャップに直面しており、固定ベースシナリオや事前定義されたカメラ視点のような制約のある設定に制限されることが多い。
本稿では,実際の3次元データ生成フレームワーク(R2RGen)を提案する。
R2RGenはシミュレータとレンダリングが不要で、効率的でプラグ&プレイが可能である。
具体的には,1つの実演を前提として,シーンと軌跡の微粒化解析のためのアノテーション機構を導入する。
複雑な多目的構成と多様なタスク制約を扱うために,グループワイド拡張戦略を提案する。
さらに,生成されたデータの分布を実世界の3Dセンサに合わせるために,カメラ対応処理を提案する。
実験的に、R2RGenは広範な実験においてデータ効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
関連論文リスト
- RoboGround: Robotic Manipulation with Grounded Vision-Language Priors [59.31993241876335]
本研究では,効果的な中間表現としての接地マスクについて検討する。
我々は、接地型ロボット操作システムであるRoboGroundを紹介する。
一般化をさらに探求し、拡張するために、大規模なシミュレーションデータを生成する自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-04-30T11:26:40Z) - From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D [32.547597353581594]
本研究では,3次元地上構造を持つシーンデータ上に構築された新しい2次元空間データ生成およびアノテーションパイプラインを提案する。
複数の公開データセットにまたがって数千のシーンから生成される大規模データセットであるSPAR-7Mを構築した。
さらに,空間能力をより包括的に評価するためのベンチマークであるSPAR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-03-29T04:51:50Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - RaSim: A Range-aware High-fidelity RGB-D Data Simulation Pipeline for Real-world Applications [55.24463002889]
我々は深度データ合成に焦点をあて、レンジ対応RGB-Dデータシミュレーションパイプライン(RaSim)を開発した。
特に、実世界のセンサーの撮像原理を模倣して高忠実度深度データを生成する。
RaSimは、下流のRGB-D知覚タスクで微調整をすることなく、現実世界のシナリオに直接適用することができる。
論文 参考訳(メタデータ) (2024-04-05T08:52:32Z) - Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks [47.07188762367792]
ARSimは3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的としたフレームワークである。
実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。
結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-03-22T17:49:11Z) - Development of a Realistic Crowd Simulation Environment for Fine-grained
Validation of People Tracking Methods [0.7223361655030193]
この研究は、群衆シミュレーションの拡張(CrowdSim2)を開発し、人追跡アルゴリズムの適用性を証明する。
シミュレータは非常に人気のあるUnity 3Dエンジンを使用して開発されており、特に環境におけるリアリズムの側面に焦点を当てている。
IOU-Tracker、Deep-Sort、Deep-TAMAという3つのトラッキング手法が生成されたデータセットの検証に使用された。
論文 参考訳(メタデータ) (2023-04-26T09:29:58Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。