論文の概要: RealWonder: Real-Time Physical Action-Conditioned Video Generation
- arxiv url: http://arxiv.org/abs/2603.05449v1
- Date: Thu, 05 Mar 2026 18:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.364052
- Title: RealWonder: Real-Time Physical Action-Conditioned Video Generation
- Title(参考訳): RealWonder:リアルタイムの物理アクション・コンディション・ビデオ・ジェネレーション
- Authors: Wei Liu, Ziyu Chen, Zizhang Li, Yue Wang, Hong-Xing Yu, Jiajun Wu,
- Abstract要約: 本稿では,1枚の画像からアクション条件付き映像をリアルタイムに生成するシステムであるRealWonderについて述べる。
RealWonderは、単一画像からの3D再構成、物理シミュレーション、および4つの拡散ステップしか必要としない蒸留ビデオ生成装置を統合している。
本システムは480x832解像度で13.2FPSを実現し,剛体物体の力,ロボット動作,カメラ制御の対話的探索を可能にする。
- 参考スコア(独自算出の注目度): 31.747349682347167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video generation models cannot simulate physical consequences of 3D actions like forces and robotic manipulations, as they lack structural understanding of how actions affect 3D scenes. We present RealWonder, the first real-time system for action-conditioned video generation from a single image. Our key insight is using physics simulation as an intermediate bridge: instead of directly encoding continuous actions, we translate them through physics simulation into visual representations (optical flow and RGB) that video models can process. RealWonder integrates three components: 3D reconstruction from single images, physics simulation, and a distilled video generator requiring only 4 diffusion steps. Our system achieves 13.2 FPS at 480x832 resolution, enabling interactive exploration of forces, robot actions, and camera controls on rigid objects, deformable bodies, fluids, and granular materials. We envision RealWonder opens new opportunities to apply video models in immersive experiences, AR/VR, and robot learning. Our code and model weights are publicly available in our project website: https://liuwei283.github.io/RealWonder/
- Abstract(参考訳): 現在のビデオ生成モデルは、アクションが3Dシーンに与える影響に関する構造的な理解が欠けているため、力やロボット操作といった3Dアクションの物理的影響をシミュレートすることはできない。
本稿では,1枚の画像からアクション条件付き映像をリアルタイムに生成するシステムであるRealWonderについて述べる。
私たちの重要な洞察は、物理シミュレーションを中間ブリッジとして使うことです。連続的なアクションを直接エンコードするのではなく、物理シミュレーションを通して、ビデオモデルが処理できる視覚表現(光学フローとRGB)に変換します。
RealWonderは、単一画像からの3D再構成、物理シミュレーション、および4つの拡散ステップしか必要としない蒸留ビデオジェネレータという3つのコンポーネントを統合している。
本システムは480x832分解能で13.2FPSを実現し, 剛体, 変形性体, 流体, 粒状材料の力, ロボット動作, カメラ制御のインタラクティブな探索を可能にする。
われわれはRealWonderが没入型体験、AR/VR、ロボット学習にビデオモデルを適用する新たな機会を開くことを期待している。
私たちのコードとモデルの重み付けは、プロジェクトのWebサイト(https://liuwei283.github.io/RealWonder/)で公開されています。
関連論文リスト
- MotionPhysics: Learnable Motion Distillation for Text-Guided Simulation [25.78198969054392]
MotionPhysicsは、ユーザが提供する自然言語プロンプトから妥当な物理パラメータを推論するエンドツーエンドの微分可能なフレームワークである。
我々は30以上のシナリオでMotionPhysicsを評価し、実世界、人間設計、AIによって生成された3Dオブジェクトを含む。
論文 参考訳(メタデータ) (2026-01-01T22:56:37Z) - Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow [21.658558775915267]
本研究では3次元オブジェクトフローを中間表現として,映像生成とロボット制御をブリッジするフレームワークDream2Flowを紹介する。
本手法は,生成した映像から3次元物体の動きを再構成し,物体軌跡追跡として定式化する。
Dream2Flowは、エボディメントギャップを克服し、事前訓練されたビデオモデルからのゼロショットガイダンスにより、さまざまなカテゴリのオブジェクトを操作することができる。
論文 参考訳(メタデータ) (2025-12-31T10:25:24Z) - PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image [67.76547268461411]
PhysX-Anythingは最初のシミュレーション可能な物理3D生成フレームワークである。
高品質なsim-ready 3Dアセットを明示的な幾何学、調音、物理的特性で生成する。
トークンの数を193倍に減らし、標準VLMトークン予算内で明示的な幾何学的学習を可能にする。
論文 参考訳(メタデータ) (2025-11-17T17:59:53Z) - Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets [63.67760219308476]
シミュレーション可能な3Dアセットを単一画像から生成する基礎モデルであるSeed3D 1.0を提案する。
既存の3D生成モデルとは異なり、我々のシステムは正確な幾何学、よく整合したテクスチャ、リアルな物理的基盤を持つ資産を生産する。
論文 参考訳(メタデータ) (2025-10-22T18:16:32Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。
本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。
本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T17:58:01Z) - WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions [49.43000450846916]
WonderPlayは物理シミュレーションとビデオ生成を統合するフレームワークである。
アクション条件付き動的3Dシーンを1枚の画像から生成する。
WonderPlayは、ユーザが多様なコンテンツのさまざまなシーンと対話することを可能にする。
論文 参考訳(メタデータ) (2025-05-23T17:59:24Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - Learning 3D Particle-based Simulators from RGB-D Videos [15.683877597215494]
本研究では,シミュレータを直接観測から学習する手法を提案する。
視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現を共同で学習する。
既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。
論文 参考訳(メタデータ) (2023-12-08T20:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。