論文の概要: ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation
- arxiv url: http://arxiv.org/abs/2509.19454v1
- Date: Tue, 23 Sep 2025 18:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.557745
- Title: ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation
- Title(参考訳): ROPA:RGB-D双対データ拡張のための合成ロボットポス生成
- Authors: Jason Chen, I-Chun Arthur Liu, Gaurav Sukhatme, Daniel Seita,
- Abstract要約: RGB-D Bimanual Data Augmentation (ROPA) のための合成ロボットポス生成法を提案する。
ROPAファインチューン安定拡散法による新規ロボットポーズの3人RGBとRGB-D観察の合成
2625回のシミュレーション実験と300回の実世界の実験の結果、ROPAはベースラインとアブレーションを上回ります。
- 参考スコア(独自算出の注目度): 3.1921574296387916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training robust bimanual manipulation policies via imitation learning requires demonstration data with broad coverage over robot poses, contacts, and scene contexts. However, collecting diverse and precise real-world demonstrations is costly and time-consuming, which hinders scalability. Prior works have addressed this with data augmentation, typically for either eye-in-hand (wrist camera) setups with RGB inputs or for generating novel images without paired actions, leaving augmentation for eye-to-hand (third-person) RGB-D training with new action labels less explored. In this paper, we propose Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation (ROPA), an offline imitation learning data augmentation method that fine-tunes Stable Diffusion to synthesize third-person RGB and RGB-D observations of novel robot poses. Our approach simultaneously generates corresponding joint-space action labels while employing constrained optimization to enforce physical consistency through appropriate gripper-to-object contact constraints in bimanual scenarios. We evaluate our method on 5 simulated and 3 real-world tasks. Our results across 2625 simulation trials and 300 real-world trials demonstrate that ROPA outperforms baselines and ablations, showing its potential for scalable RGB and RGB-D data augmentation in eye-to-hand bimanual manipulation. Our project website is available at: https://ropaaug.github.io/.
- Abstract(参考訳): 模倣学習による堅牢な双方向操作ポリシーのトレーニングには、ロボットのポーズ、連絡先、シーンコンテキストを広範囲にカバーするデモデータが必要である。
しかし、多様で正確な実世界のデモを収集するのはコストと時間を要するため、スケーラビリティを損なう。
従来の研究では、通常、RGB入力を備えたアイ・イン・ハンド(抵抗カメラ)のセットアップやペア・アクションなしで新しい画像を生成するために、新しいアクション・ラベルを用いたアイ・ツー・ハンド(3人目)のRGB-Dトレーニングのための強化が検討されていない。
本稿では,RGB-D Bimanual Data Augmentation(ROPA)のためのSynthetic Robot Pose Generationを提案する。
本手法では, 両面シナリオにおける接触制約を適切に把握し, 物理的整合性を確保するために, 制約付き最適化を適用しながら, 対応する共同空間動作ラベルを同時に生成する。
本手法を実世界の5つのタスクと3つのタスクで評価する。
2625回のシミュレーション実験と300回の実世界実験の結果、ROPAはベースラインとアブレーションを上回り、拡張性のあるRGBおよびRGB-Dデータ拡張の可能性を示している。
プロジェクトのWebサイトは以下の通りです。
関連論文リスト
- RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。
3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。
我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文 参考訳(メタデータ) (2025-06-28T05:03:31Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images [125.66499135980344]
オープンボキャブラリ型ロボットグリップシステムであるSparseGraspを提案する。
SparseGraspはスパースビューのRGBイメージで効率的に動作し、シーン更新を高速に処理する。
SparseGraspは, 高速化と適応性の両方の観点から, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T03:56:01Z) - ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation [31.211870350260703]
キーポイント制約(キーポイント制約、英: Keypoint Constraints)は、ロボット操作における制約を視覚的に表現した表現である。
ReKepはPython関数として表現され、環境の3Dキーポイントのセットを数値的なコストにマッピングする。
車輪付きシングルアームプラットフォームと静止式デュアルアームプラットフォーム上でのシステム実装について述べる。
論文 参考訳(メタデータ) (2024-09-03T06:45:22Z) - Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning [15.266994159289645]
Render and Diffuse(R&D)は,ロボットの3次元モデルの仮想レンダリングを用いて,画像空間内の低レベルロボット動作とRGB観察を統一する手法である。
この空間統一は学習問題を単純化し、サンプル効率と空間一般化に不可欠な帰納バイアスを導入する。
以上の結果から,R&Dは空間一般化能力が高く,より一般的なイメージ・ツー・アクション法よりもサンプリング効率が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-28T14:06:10Z) - NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via
Novel-View Synthesis [50.93065653283523]
SPARTN(Synthetic Perturbations for Augmenting Robot Trajectories via NeRF)は、ロボットポリシーを改善するための完全なオフラインデータ拡張スキームである。
提案手法はニューラルレイディアンス場(NeRF)を利用して,視覚的デモンストレーションに補正ノイズを合成注入する。
シミュレーションされた6-DoF視覚的把握ベンチマークでは、SPARTNは精度を2.8$times$で改善する。
論文 参考訳(メタデータ) (2023-01-18T23:25:27Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Self-Supervised Motion Retargeting with Safety Guarantee [12.325683599398564]
本研究では、人型ロボットのモーションキャプチャーデータやRGBビデオから自然な動きを生成できるデータ駆動モーション法を提案する。
本手法は、CMUモーションキャプチャデータベースとYouTubeビデオの両方から表現型ロボットモーションを生成することができる。
論文 参考訳(メタデータ) (2021-03-11T04:17:26Z) - Unseen Object Instance Segmentation for Robotic Environments [67.88276573341734]
本稿では,テーブルトップ環境において未確認のオブジェクトインスタンスをセグメント化する手法を提案する。
UOIS-Netは2つのステージで構成されている: まず、オブジェクトのインスタンス中心の投票を2Dまたは3Dで生成するために、深さでのみ動作する。
驚くべきことに、我々のフレームワークは、RGBが非フォトリアリスティックな合成RGB-Dデータから学習することができる。
論文 参考訳(メタデータ) (2020-07-16T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。