論文の概要: Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
- arxiv url: http://arxiv.org/abs/2512.24766v1
- Date: Wed, 31 Dec 2025 10:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.62225
- Title: Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
- Title(参考訳): Dream2Flow:3Dオブジェクトフローによるブリッジングビデオ生成とオープンワールド操作
- Authors: Karthik Dharmarajan, Wenlong Huang, Jiajun Wu, Li Fei-Fei, Ruohan Zhang,
- Abstract要約: 本研究では3次元オブジェクトフローを中間表現として,映像生成とロボット制御をブリッジするフレームワークDream2Flowを紹介する。
本手法は,生成した映像から3次元物体の動きを再構成し,物体軌跡追跡として定式化する。
Dream2Flowは、エボディメントギャップを克服し、事前訓練されたビデオモデルからのゼロショットガイダンスにより、さまざまなカテゴリのオブジェクトを操作することができる。
- 参考スコア(独自算出の注目度): 21.658558775915267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems. We observe that given an initial image and task instruction, these models excel at synthesizing sensible object motions. Thus, we introduce Dream2Flow, a framework that bridges video generation and robotic control through 3D object flow as an intermediate representation. Our method reconstructs 3D object motions from generated videos and formulates manipulation as object trajectory tracking. By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models to manipulate objects of diverse categories-including rigid, articulated, deformable, and granular. Through trajectory optimization or reinforcement learning, Dream2Flow converts reconstructed 3D object flow into executable low-level commands without task-specific demonstrations. Simulation and real-world experiments highlight 3D object flow as a general and scalable interface for adapting video generation models to open-world robotic manipulation. Videos and visualizations are available at https://dream2flow.github.io/.
- Abstract(参考訳): 生成的ビデオモデリングは、オープンワールド操作のための、妥当な物理的相互作用に関するゼロショット推論のための魅力的なツールとして登場した。
しかし、人間主導の動作をロボットシステムによって要求される低レベルな動作に変換することは依然として課題である。
初期画像とタスク命令が与えられた場合、これらのモデルは知覚可能な物体の動きの合成に優れる。
そこで我々は,3次元オブジェクトフローを中間表現として,映像生成とロボット制御をブリッジするフレームワークDream2Flowを紹介した。
本手法は,生成した映像から3次元物体の動きを再構成し,物体軌跡追跡として定式化する。
これらの変化を実現するアクチュエーターから状態変化を分離することにより、Dream2Flowはエンボディメントギャップを克服し、事前訓練されたビデオモデルからのゼロショットガイダンスにより、さまざまなカテゴリ(剛性、調音性、変形性、粒度)のオブジェクトを操作できる。
軌道最適化や強化学習を通じて、Dream2Flowは再構築された3Dオブジェクトフローをタスク固有のデモなしで実行可能な低レベルコマンドに変換する。
シミュレーションと実世界の実験では、オープンワールドロボット操作にビデオ生成モデルを適用するための汎用的でスケーラブルなインタフェースとして、3Dオブジェクトフローが強調されている。
ビデオと視覚化はhttps://dream2flow.github.io/.com/で公開されている。
関連論文リスト
- Learning to Control Physically-simulated 3D Characters via Generating and Mimicking 2D Motions [23.080971732537886]
Mimic2DMはビデオから抽出した2Dキーポイント軌跡から直接制御ポリシーを学習する新しい動作模倣フレームワークである。
提案手法は多目的であり,様々な領域にわたる物理的に可塑性かつ多様な動作を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2025-12-09T11:30:56Z) - NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos [13.84832813181084]
NovaFlowは、タスク記述をターゲットロボットの実行可能な計画に変換する、自律的な操作フレームワークである。
我々は,テーブルトップのフランカアームとスポット四足歩行ロボットを用いて,剛性,調音性,変形可能な物体操作タスクを検証した。
論文 参考訳(メタデータ) (2025-10-09T17:59:55Z) - Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。
本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。
本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T17:58:01Z) - ManipDreamer3D : Synthesizing Plausible Robotic Manipulation Video with Occupancy-aware 3D Trajectory [56.06314177428745]
ManipDreamer3Dは入力画像とテキスト命令から可塑性3D対応ロボット操作ビデオを生成する。
提案手法は,自律的に計画された3Dトラジェクトリを用いたロボットビデオを生成し,人間の介入要求を大幅に低減する。
論文 参考訳(メタデータ) (2025-08-29T10:39:06Z) - 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model [40.730112146035076]
主な理由は、ロボットの操作スキルを教えるための、大きく均一なデータセットがないことだ。
現在のロボットデータセットは、単純なシーン内で異なるアクション空間でロボットのアクションを記録することが多い。
我々は人間とロボットの操作データから3次元フローワールドモデルを学ぶ。
論文 参考訳(メタデータ) (2025-06-06T16:00:31Z) - Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - Flow as the Cross-Domain Manipulation Interface [73.15952395641136]
Im2Flow2Actは、現実世界のロボットのトレーニングデータを必要とせずに、ロボットが現実世界の操作スキルを習得することを可能にする。
Im2Flow2Actはフロー生成ネットワークとフロー条件ポリシーの2つのコンポーネントから構成される。
我々はIm2Flow2Actの様々な実世界のタスクにおいて、剛性、調音、変形可能なオブジェクトの操作を含む能力を実証する。
論文 参考訳(メタデータ) (2024-07-21T16:15:02Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。