論文の概要: RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer
- arxiv url: http://arxiv.org/abs/2505.23171v1
- Date: Thu, 29 May 2025 07:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.725446
- Title: RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer
- Title(参考訳): RoboTransfer:ロボットの視覚政策伝達のための幾何一貫性ビデオ拡散
- Authors: Liu Liu, Xiaofeng Wang, Guosheng Zhao, Keyu Li, Wenkang Qin, Jiaxiong Qiu, Zheng Zhu, Guan Huang, Zhizhong Su,
- Abstract要約: RoboTransferは、ロボットデータ合成のための拡散ベースのビデオ生成フレームワークである。
背景属性やオブジェクト属性などのシーンコンポーネントを明示的に制御するマルチビュー幾何を統合している。
RoboTransferは、幾何的一貫性と視覚的忠実度を向上したマルチビュービデオを生成することができる。
- 参考スコア(独自算出の注目度): 33.178540405656676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning has become a fundamental approach in robotic manipulation. However, collecting large-scale real-world robot demonstrations is prohibitively expensive. Simulators offer a cost-effective alternative, but the sim-to-real gap make it extremely challenging to scale. Therefore, we introduce RoboTransfer, a diffusion-based video generation framework for robotic data synthesis. Unlike previous methods, RoboTransfer integrates multi-view geometry with explicit control over scene components, such as background and object attributes. By incorporating cross-view feature interactions and global depth/normal conditions, RoboTransfer ensures geometry consistency across views. This framework allows fine-grained control, including background edits and object swaps. Experiments demonstrate that RoboTransfer is capable of generating multi-view videos with enhanced geometric consistency and visual fidelity. In addition, policies trained on the data generated by RoboTransfer achieve a 33.3% relative improvement in the success rate in the DIFF-OBJ setting and a substantial 251% relative improvement in the more challenging DIFF-ALL scenario. Explore more demos on our project page: https://horizonrobotics.github.io/robot_lab/robotransfer
- Abstract(参考訳): 模倣学習はロボット操作の基本的なアプローチとなっている。
しかし、大規模な実世界のロボットデモの収集は違法に高価である。
シミュレーターは費用対効果のある代替手段を提供するが、sim-to-realギャップはスケールを極めて困難にしている。
そこで,ロボットデータ合成のための拡散型ビデオ生成フレームワークであるRoboTransferを紹介する。
従来の方法とは異なり、RoboTransferは背景属性やオブジェクト属性などのシーンコンポーネントを明示的に制御するマルチビュー幾何を統合している。
クロスビュー機能インタラクションとグローバルな深さ/正規条件を組み合わせることで、RoboTransferはビュー間の幾何学的一貫性を保証する。
このフレームワークは、バックグラウンド編集やオブジェクトスワップなど、きめ細かいコントロールを可能にする。
実験によると、RoboTransferは幾何的一貫性と視覚的忠実度を向上したマルチビュービデオを生成することができる。
さらに、RoboTransferによって生成されたデータに基づいてトレーニングされたポリシーは、DIFF-OBJ設定における成功率の33.3%の相対的な改善と、より困難なDIFF-ALLシナリオにおける実質的な251%の相対的な改善を実現している。
より詳細なデモは、プロジェクトのページを参照してください。
関連論文リスト
- TransAnimate: Taming Layer Diffusion to Generate RGBA Video [3.7031943280491997]
TransAnimateは、RGBA画像生成技術とビデオ生成モジュールを統合する革新的なフレームワークである。
本稿では,方向矢印が動きを定義し,色がスケーリングを調節する対話型モーションガイド制御機構を提案する。
我々は、RGBAビデオデータセットの作成、高品質なゲームエフェクトビデオ、抽出された前景オブジェクト、および合成透明なビデオを統合するパイプラインを開発した。
論文 参考訳(メタデータ) (2025-03-23T04:27:46Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation [10.54770475137596]
動作学習から視覚的特徴抽出を分離する革新的なアプローチであるRoboUniViewを提案する。
我々はまず、アクセスしやすいデータに基づいて事前学習することで、多視点ビューから統一されたビュー表現を学び、その後、この統合されたビュー表現からアクションを導出し、ロボット操作を制御する。
CALVINベンチマークの最先端性能を達成し、D$が93.0%から96.2%に、ABC$が92.2%から94.2%に、D$が93.0%から96.2%に向上した。
論文 参考訳(メタデータ) (2024-06-27T08:13:33Z) - 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation [53.45111493465405]
マスク付きオートエンコーダを用いた3次元マルチビュー事前学習のための新しいアプローチである3D-MVPを提案する。
我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して3Dシーンを理解し,ポーズ動作を予測する。
論文 参考訳(メタデータ) (2024-06-26T08:17:59Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - RVT: Robotic View Transformer for 3D Object Manipulation [46.25268237442356]
本稿では,スケーラブルかつ高精度な3次元操作のためのマルチビュー変換器RVTを提案する。
単一のRVTモデルは18のRLBenchタスクに対して249のタスクバリエーションでうまく動作し、既存の最先端手法(PerAct)よりも26%高い相対的な成功を達成している。
論文 参考訳(メタデータ) (2023-06-26T17:59:31Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。