論文の概要: RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer
- arxiv url: http://arxiv.org/abs/2505.23171v1
- Date: Thu, 29 May 2025 07:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.725446
- Title: RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer
- Title(参考訳): RoboTransfer:ロボットの視覚政策伝達のための幾何一貫性ビデオ拡散
- Authors: Liu Liu, Xiaofeng Wang, Guosheng Zhao, Keyu Li, Wenkang Qin, Jiaxiong Qiu, Zheng Zhu, Guan Huang, Zhizhong Su,
- Abstract要約: RoboTransferは、ロボットデータ合成のための拡散ベースのビデオ生成フレームワークである。
背景属性やオブジェクト属性などのシーンコンポーネントを明示的に制御するマルチビュー幾何を統合している。
RoboTransferは、幾何的一貫性と視覚的忠実度を向上したマルチビュービデオを生成することができる。
- 参考スコア(独自算出の注目度): 33.178540405656676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning has become a fundamental approach in robotic manipulation. However, collecting large-scale real-world robot demonstrations is prohibitively expensive. Simulators offer a cost-effective alternative, but the sim-to-real gap make it extremely challenging to scale. Therefore, we introduce RoboTransfer, a diffusion-based video generation framework for robotic data synthesis. Unlike previous methods, RoboTransfer integrates multi-view geometry with explicit control over scene components, such as background and object attributes. By incorporating cross-view feature interactions and global depth/normal conditions, RoboTransfer ensures geometry consistency across views. This framework allows fine-grained control, including background edits and object swaps. Experiments demonstrate that RoboTransfer is capable of generating multi-view videos with enhanced geometric consistency and visual fidelity. In addition, policies trained on the data generated by RoboTransfer achieve a 33.3% relative improvement in the success rate in the DIFF-OBJ setting and a substantial 251% relative improvement in the more challenging DIFF-ALL scenario. Explore more demos on our project page: https://horizonrobotics.github.io/robot_lab/robotransfer
- Abstract(参考訳): 模倣学習はロボット操作の基本的なアプローチとなっている。
しかし、大規模な実世界のロボットデモの収集は違法に高価である。
シミュレーターは費用対効果のある代替手段を提供するが、sim-to-realギャップはスケールを極めて困難にしている。
そこで,ロボットデータ合成のための拡散型ビデオ生成フレームワークであるRoboTransferを紹介する。
従来の方法とは異なり、RoboTransferは背景属性やオブジェクト属性などのシーンコンポーネントを明示的に制御するマルチビュー幾何を統合している。
クロスビュー機能インタラクションとグローバルな深さ/正規条件を組み合わせることで、RoboTransferはビュー間の幾何学的一貫性を保証する。
このフレームワークは、バックグラウンド編集やオブジェクトスワップなど、きめ細かいコントロールを可能にする。
実験によると、RoboTransferは幾何的一貫性と視覚的忠実度を向上したマルチビュービデオを生成することができる。
さらに、RoboTransferによって生成されたデータに基づいてトレーニングされたポリシーは、DIFF-OBJ設定における成功率の33.3%の相対的な改善と、より困難なDIFF-ALLシナリオにおける実質的な251%の相対的な改善を実現している。
より詳細なデモは、プロジェクトのページを参照してください。
関連論文リスト
- RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。
3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。
我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文 参考訳(メタデータ) (2025-06-28T05:03:31Z) - RoboSwap: A GAN-driven Video Diffusion Framework For Unsupervised Robot Arm Swapping [26.010205882976624]
RoboSwapは多様な環境からの未ペアデータで動作する。
私たちはロボットアームを彼らのバックグラウンドから切り離し、片方のロボットアームをもう片方のロボットアームに翻訳するために、無人のGANモデルを訓練します。
実験の結果,RoboSwapは3つのベンチマークで最先端のビデオや画像編集モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-10T09:46:07Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - TransAnimate: Taming Layer Diffusion to Generate RGBA Video [3.7031943280491997]
TransAnimateは、RGBA画像生成技術とビデオ生成モジュールを統合する革新的なフレームワークである。
本稿では,方向矢印が動きを定義し,色がスケーリングを調節する対話型モーションガイド制御機構を提案する。
我々は、RGBAビデオデータセットの作成、高品質なゲームエフェクトビデオ、抽出された前景オブジェクト、および合成透明なビデオを統合するパイプラインを開発した。
論文 参考訳(メタデータ) (2025-03-23T04:27:46Z) - TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation [18.083105886634115]
TASTE-Robは、エゴ中心のハンドオブジェクトインタラクションビデオ100,856のデータセットである。
それぞれのビデオは、言語指示と慎重に一致し、一貫したカメラ視点から記録される。
リアリズムを高めるために,我々は3段階のポーズ・リファインメント・パイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-14T14:09:31Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation [10.54770475137596]
動作学習から視覚的特徴抽出を分離する革新的なアプローチであるRoboUniViewを提案する。
我々はまず、アクセスしやすいデータに基づいて事前学習することで、多視点ビューから統一されたビュー表現を学び、その後、この統合されたビュー表現からアクションを導出し、ロボット操作を制御する。
CALVINベンチマークの最先端性能を達成し、D$が93.0%から96.2%に、ABC$が92.2%から94.2%に、D$が93.0%から96.2%に向上した。
論文 参考訳(メタデータ) (2024-06-27T08:13:33Z) - 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation [53.45111493465405]
マスク付きオートエンコーダを用いた3次元マルチビュー事前学習のための新しいアプローチである3D-MVPを提案する。
我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して3Dシーンを理解し,ポーズ動作を予測する。
論文 参考訳(メタデータ) (2024-06-26T08:17:59Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - RVT: Robotic View Transformer for 3D Object Manipulation [46.25268237442356]
本稿では,スケーラブルかつ高精度な3次元操作のためのマルチビュー変換器RVTを提案する。
単一のRVTモデルは18のRLBenchタスクに対して249のタスクバリエーションでうまく動作し、既存の最先端手法(PerAct)よりも26%高い相対的な成功を達成している。
論文 参考訳(メタデータ) (2023-06-26T17:59:31Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation [52.94101901600948]
マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。
PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。
以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-09-12T17:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。