論文の概要: WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation
- arxiv url: http://arxiv.org/abs/2603.16871v1
- Date: Tue, 17 Mar 2026 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.478077
- Title: WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation
- Title(参考訳): WorldCam: インタラクティブな自動回帰型3Dゲームワールドとカメラポーズを融合した幾何学的表現
- Authors: Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, Feng Liu, JoungBin Lee, Jiyoung Kim, Siyoon Jin, Yunsung Lee, Jaeyoon Jung, Suhwan Choi, Seungryong Kim, Yang Zhou,
- Abstract要約: 我々は、地上での即時動作制御と長期3次元一貫性を統一した幾何学的表現として、カメラのポーズを確立する。
本手法は, アクション制御性, 長時間の視覚的品質, 3次元空間の整合性において, 最先端の対話型ゲームワールドモデルよりも大幅に優れる。
- 参考スコア(独自算出の注目度): 47.97929550105451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video diffusion transformers have enabled interactive gaming world models that allow users to explore generated environments over extended horizons. However, existing approaches struggle with precise action control and long-horizon 3D consistency. Most prior works treat user actions as abstract conditioning signals, overlooking the fundamental geometric coupling between actions and the 3D world, whereby actions induce relative camera motions that accumulate into a global camera pose within a 3D world. In this paper, we establish camera pose as a unifying geometric representation to jointly ground immediate action control and long-term 3D consistency. First, we define a physics-based continuous action space and represent user inputs in the Lie algebra to derive precise 6-DoF camera poses, which are injected into the generative model via a camera embedder to ensure accurate action alignment. Second, we use global camera poses as spatial indices to retrieve relevant past observations, enabling geometrically consistent revisiting of locations during long-horizon navigation. To support this research, we introduce a large-scale dataset comprising 3,000 minutes of authentic human gameplay annotated with camera trajectories and textual descriptions. Extensive experiments show that our approach substantially outperforms state-of-the-art interactive gaming world models in action controllability, long-horizon visual quality, and 3D spatial consistency.
- Abstract(参考訳): ビデオ拡散トランスフォーマーの最近の進歩は、ユーザーが地平線を越えて生成された環境を探索できるインタラクティブなゲームワールドモデルを可能にしている。
しかし、既存のアプローチは正確なアクション制御と長距離3D整合性に苦慮している。
これまでのほとんどの研究は、ユーザーアクションを抽象的な条件付け信号として扱い、アクションと3D世界の基本的な幾何学的結合を見極め、アクションは、グローバルなカメラのポーズに蓄積される相対的なカメラの動きを誘導する。
本稿では,カメラのポーズを統合的幾何学的表現として確立し,即時動作制御と長期3次元整合性を両立させる。
まず、物理に基づく連続的なアクション空間を定義し、リー代数のユーザ入力を正確に6-DoFカメラのポーズを導出し、カメラ埋め込み器を介して生成モデルに注入して正確なアクションアライメントを保証する。
第2に,地球カメラのポーズを空間的指標として用いて過去の観測を再現し,長距離航法における位置の幾何的一貫した再検討を可能にする。
本研究を支援するために,カメラの軌跡やテキストによる記述を付加した,3000分間の真の人間のゲームプレイを含む大規模データセットを提案する。
広汎な実験により、我々のアプローチは、アクション制御性、長期視覚的品質、空間的整合性において、最先端の対話型ゲームの世界モデルよりも大幅に優れていることが示された。
関連論文リスト
- Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures [33.2764643227486]
エゴセントリックなインタラクティブな世界モデルは、拡張現実と具体的AIにとって不可欠であり、視覚生成は低レイテンシ、幾何的一貫性、長期的な安定性でユーザの入力に応答する必要がある。
自由空間ハンドジェスチャ下での単一シーン画像からのエゴセントリックなインタラクション生成について検討し、シーンに手を入れたり、オブジェクトと対話したり、ヘッドモーション下でプラプティブルな世界ダイナミクスを誘導するフォトリアリスティックな映像を合成することを目的とした。
この設定には、自由空間のジェスチャーと接触重大なトレーニングデータとの分配シフト、モノクロビューにおける手の動きとカメラの動きのあいまいさ、任意の長さのビデオ生成の必要性など、基本的な課題が導入されている。
論文 参考訳(メタデータ) (2026-02-10T09:51:07Z) - EvoWorld: Evolving Panoramic World Generation with Explicit 3D Memory [40.346684158976494]
EvoWorldは、空間的に一貫した長距離探査を可能にするために、3Dメモリを進化させたパノラマビデオ生成を橋渡しする。
ビデオのみを合成する従来の最先端技術とは異なり、我々の重要な洞察は、この進化する3D再構成を明示的な空間的ガイダンスとして活用することにある。
長距離探査能力を評価するため,合成屋外環境,ハビタット屋内シーン,実世界のシナリオに挑戦する,初の総合的なベンチマークを導入した。
論文 参考訳(メタデータ) (2025-10-01T17:59:38Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - MagicDrive: Street View Generation with Diverse 3D Geometry Control [82.69871576797166]
多様な3D幾何学制御を提供する新しいストリートビュー生成フレームワークであるMagicDriveを紹介した。
私たちの設計では、複数のカメラビュー間の一貫性を確保するために、クロスビューアテンションモジュールが組み込まれています。
論文 参考訳(メタデータ) (2023-10-04T06:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。