論文の概要: WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models
- arxiv url: http://arxiv.org/abs/2605.25077v1
- Date: Sun, 24 May 2026 13:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.747199
- Title: WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models
- Title(参考訳): WorldCraft:インタラクティブなビデオワールドモデルでカメラナビゲーションからオブジェクト操作へ
- Authors: Bohai Gu, Taiyi Wu, Yueyang Yuan, Jian Liu, Xiaocheng Lu, Dazhao Du, Jie Zhang, Jinxiang Lai, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo,
- Abstract要約: カメラナビゲーションからオブジェクトレベルのトラジェクトリアクションまで,インタラクティブなビデオワールドモデルを拡張するフレームワークであるWorldCraftを紹介する。
ユーザクリックとスケッチされたパスが与えられたら、WorldCraftは、選択したオブジェクトが所定の軌跡に従う将来のフレームを生成する。
実験により、WorldCraftは正確なオブジェクト制御を可能にし、カメラのみの評価の下でビデオベースのワールドモデルのカメラ忠実性を保ち、長期の自己回帰ロールアウトでオブジェクト状態を維持することが示されている。
- 参考スコア(独自算出の注目度): 32.26032900976109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video-based world models have made pixel-space environments interactive at the camera level: users can navigate viewpoints while the model generates coherent visual continuations. Yet their action spaces remain incomplete: users can move the camera, but cannot act on individual objects. Since real-world interaction is inherently object-centric, such models remain closer to passive scene observers than truly manipulable environments. We present WorldCraft, a framework that expands interactive video world models from camera navigation to object-level trajectory actions. Given a user click and a sketched path, WorldCraft generates future frames in which the selected object follows the prescribed trajectory while the camera continues to navigate the scene. WorldCraft achieves this through a trajectory-centric control pipeline: First, Normalized World Trajectory (NWT) represents user-drawn motion in a camera-invariant world coordinate system and dynamically re-projects it under the current camera pose, separating object motion from camera-induced screen-space displacement; Spatial-Pathway LoRA (SP-LoRA) then injects this world-space signal through the model's spatial-control pathway, adding object manipulation capability while preserving the pretrained camera controller; finally, Trajectory-Anchored State Persistence (TASP) treats the world trajectory as a persistent spatial state and refreshes autoregressive memory after trajectory-conditioned generation, allowing moved objects to reappear at their updated positions after leaving the camera view. Experiments show that WorldCraft enables accurate object control, preserves the video-based world model's camera fidelity under camera-only evaluation, and maintains object state across long autoregressive rollouts with off-camera excursions.
- Abstract(参考訳): 最近のビデオベースの世界モデルは、カメラレベルでのピクセル空間環境のインタラクティブ化を実現している。
ユーザーはカメラを動かすことができるが、個々のオブジェクトに作用することはできない。
現実世界の相互作用は本質的にオブジェクト指向であるため、そのようなモデルは真に操作可能な環境よりも受動的シーンオブザーバーに近づいたままである。
カメラナビゲーションからオブジェクトレベルのトラジェクトリアクションまで,インタラクティブなビデオワールドモデルを拡張するフレームワークであるWorldCraftを紹介する。
ユーザーがクリックしてスケッチされたパスが与えられたら、WorldCraftは、選択したオブジェクトが所定の軌道を辿り、カメラがシーンをナビゲートし続ける未来フレームを生成する。
第一に、正規化された世界軌道(NWT)は、カメラ不変の世界座標系におけるユーザによる動きを表現し、現在のカメラのポーズの下で動的に再投影し、カメラによって誘導されるスクリーン空間の変位からオブジェクトの動きを分離する;空間空間空間ロラ(SP-LoRA)は、モデルの空間制御経路を介してこの世界空間信号を注入し、事前訓練されたカメラコントローラを保存しながらオブジェクト操作機能を追加する。
実験により、WorldCraftは正確なオブジェクト制御を可能にし、カメラのみの評価の下でビデオベースのワールドモデルのカメラ忠実性を保ち、オフカメラ・エクストラクションによる長時間の自己回帰ロールアウトにおけるオブジェクト状態を維持する。
関連論文リスト
- SymphoMotion: Joint Control of Camera Motion and Object Dynamics for Coherent Video Generation [11.470401259593944]
SymphoMotionは、単一のモデル内でカメラの軌跡とオブジェクトのダイナミクスを管理する統合モーションコントロールフレームワークである。
The SymphoMotion are shown that SymphoMotion are significantlyforms existing method in visual fidelity, camera controllability, and object-motion accuracy。
論文 参考訳(メタデータ) (2026-04-04T12:59:24Z) - WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation [47.97929550105451]
我々は、地上での即時動作制御と長期3次元一貫性を統一した幾何学的表現として、カメラのポーズを確立する。
本手法は, アクション制御性, 長時間の視覚的品質, 3次元空間の整合性において, 最先端の対話型ゲームワールドモデルよりも大幅に優れる。
論文 参考訳(メタデータ) (2026-03-17T17:59:56Z) - VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [83.92729346325163]
VerseCrafterは、4D対応のビデオワールドモデルであり、カメラとオブジェクトのダイナミクスの両方を明示的で一貫性のある制御を可能にする。
当社のアプローチは,静的な背景点雲を通じて世界状態をエンコードする,新しい4次元幾何制御表現を中心にしている。
これらの4D制御は、事前訓練されたビデオ拡散モデルのための条件付け信号にレンダリングされ、高忠実でビュー一貫性のあるビデオを生成することができる。
論文 参考訳(メタデータ) (2026-01-08T17:28:52Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。
本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文 参考訳(メタデータ) (2025-02-27T08:21:03Z) - Persistent Nature: A Generative Model of Unbounded 3D Worlds [74.51149070418002]
任意のカメラポーズから3Dデコーダとボリュームレンダリングによって描画できる拡張可能な平面配置グリッドを提案する。
この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。
提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,永続的でカメラに依存しない世界表現をサポートする。
論文 参考訳(メタデータ) (2023-03-23T17:59:40Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。