論文の概要: ORV: 4D Occupancy-centric Robot Video Generation
- arxiv url: http://arxiv.org/abs/2506.03079v1
- Date: Tue, 03 Jun 2025 17:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.876308
- Title: ORV: 4D Occupancy-centric Robot Video Generation
- Title(参考訳): ORV: 4D Occupupancy中心のロボットビデオ生成
- Authors: Xiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao,
- Abstract要約: 遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。
ORVは,4次元のセマンティック・コンカレンシー・シーケンスをきめ細かな表現として利用した,作業中心のロボットビデオ生成フレームワークである。
ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
- 参考スコア(独自算出の注目度): 33.360345403049685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring real-world robotic simulation data through teleoperation is notoriously time-consuming and labor-intensive. Recently, action-driven generative models have gained widespread adoption in robot learning and simulation, as they eliminate safety concerns and reduce maintenance efforts. However, the action sequences used in these methods often result in limited control precision and poor generalization due to their globally coarse alignment. To address these limitations, we propose ORV, an Occupancy-centric Robot Video generation framework, which utilizes 4D semantic occupancy sequences as a fine-grained representation to provide more accurate semantic and geometric guidance for video generation. By leveraging occupancy-based representations, ORV enables seamless translation of simulation data into photorealistic robot videos, while ensuring high temporal consistency and precise controllability. Furthermore, our framework supports the simultaneous generation of multi-view videos of robot gripping operations - an important capability for downstream robotic learning tasks. Extensive experimental results demonstrate that ORV consistently outperforms existing baseline methods across various datasets and sub-tasks. Demo, Code and Model: https://orangesodahub.github.io/ORV
- Abstract(参考訳): 遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。
近年,ロボット学習やシミュレーションにおいて,安全上の懸念を排除し,メンテナンスの労力を減らすことで,行動駆動型生成モデルが広く採用されている。
しかしながら、これらの方法で使用されるアクションシーケンスは、大域的に粗いアライメントのため、制御精度が制限され、一般化が不十分になることが多い。
これらの制約に対処するため,Occupancy中心のロボットビデオ生成フレームワークであるORVを提案する。
ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
さらに,本フレームワークは,ロボットグリップ操作によるマルチビュー映像の同時生成を支援する。
ORVは、さまざまなデータセットやサブタスクで、既存のベースラインメソッドよりも一貫して優れています。
デモ、コード、モデル:https://orangesodahub.github.io/ORV
関連論文リスト
- DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Pre-training Auto-regressive Robotic Models with 4D Representations [43.80798244473759]
ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。
実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
論文 参考訳(メタデータ) (2025-02-18T18:59:01Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。