論文の概要: RAYNOVA: 3D-Geometry-Free Auto-Regressive Driving World Modeling with Unified Spatio-Temporal Representation
- arxiv url: http://arxiv.org/abs/2602.20685v1
- Date: Tue, 24 Feb 2026 08:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.679443
- Title: RAYNOVA: 3D-Geometry-Free Auto-Regressive Driving World Modeling with Unified Spatio-Temporal Representation
- Title(参考訳): RAYNOVA: 統一時空間表現を用いた3次元ジオメトリフリー自動回帰駆動世界モデリング
- Authors: Yichen Xie, Chensheng Peng, Mazen Abdelfattah, Yihan Hu, Jiezhi Yang, Eric Higgins, Ryan Brigden, Masayoshi Tomizuka, Wei Zhan,
- Abstract要約: RAYNOVAは、二重因果自己回帰フレームワークを用いた幾何学的自由世界モデルである。
私たちのコードはhttp://yichen.io/raynova.comでリリースされます。
- 参考スコア(独自算出の注目度): 51.441415833480505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World foundation models aim to simulate the evolution of the real world with physically plausible behavior. Unlike prior methods that handle spatial and temporal correlations separately, we propose RAYNOVA, a geometry-free world model that employs a dual-causal autoregressive framework. It follows both scale-wise and temporal topological orders in the autoregressive process, and leverages global attention for unified 4D spatio-temporal reasoning. Different from existing works that impose strong 3D geometric priors, RAYNOVA constructs an isotropic spatio-temporal representation across views, frames, and scales based on relative Plücker-ray positional encoding, enabling robust generalization to diverse camera setups and ego motions. We further introduce a recurrent training paradigm to alleviate distribution drift in long-horizon video generation. RAYNOVA achieves state-of-the-art multi-view video generation results on nuScenes, while offering higher throughput and strong controllability under diverse input conditions, generalizing to novel views and camera configurations without explicit 3D scene representation. Our code will be released at http://yichen928.github.io/raynova.
- Abstract(参考訳): 世界基盤モデルは、物理的に妥当な振る舞いで現実世界の進化をシミュレートすることを目的としている。
空間的相関と時間的相関を別々に扱う従来の手法とは異なり、二重因果自己回帰フレームワークを用いた幾何学的自由世界モデルであるRAYNOVAを提案する。
自己回帰過程におけるスケールワイドおよび時間的トポロジカルな順序に従い、グローバルな注意を4次元時空間的推論に活用する。
RAYNOVAは、強い3次元幾何学的前提を課す既存の作品とは異なり、相対的なプリュッカー線位置符号化に基づいて、ビュー、フレーム、スケールをまたいだ等方的時空間表現を構築し、多様なカメラ設定やエゴ運動への堅牢な一般化を可能にしている。
さらに,長距離ビデオ生成における分布のドリフトを軽減するために,繰り返しトレーニングパラダイムを導入する。
RAYNOVAは、nuScenes上で最先端のマルチビュービデオ生成結果を実現し、多様な入力条件下で高いスループットと強力な制御性を提供し、明示的な3Dシーン表現のない新しいビューやカメラ構成に一般化する。
私たちのコードはhttp://yichen928.github.io/raynova.comでリリースされます。
関連論文リスト
- Blur2Sharp: Human Novel Pose and View Synthesis with Generative Prior Refinement [6.91111219679588]
Blur2Sharpは、3D対応ニューラルレンダリングと拡散モデルを統合して、シャープで幾何学的に一貫した新しいビュー画像を生成する新しいフレームワークである。
まず、人間のNeRFモデルを用いて、ターゲットポーズのための幾何学的コヒーレントなマルチビューレンダリングを生成し、3次元構造ガイダンスを明示的に符号化する。
我々はさらに、階層的特徴融合により視覚的品質を向上し、パラメトリックSMPLモデルから抽出したテクスチャ、正常、セマンティック先行を取り入れ、グローバルコヒーレンスと局所的詳細精度を同時に改善する。
論文 参考訳(メタデータ) (2025-12-09T03:49:12Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。
提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文 参考訳(メタデータ) (2025-09-27T11:19:32Z) - Epona: Autoregressive Diffusion World Model for Autonomous Driving [39.389981627403316]
既存のビデオ拡散モデルは、柔軟で長い水平予測と軌道計画の統合に苦慮している。
これは、従来のビデオ拡散モデルは固定長フレーム列のグローバルな共同分布モデルに依存しているためである。
本研究では,局所分布モデリングが可能な自己回帰的世界モデルであるEponaを提案する。
論文 参考訳(メタデータ) (2025-06-30T17:56:35Z) - DSG-World: Learning a 3D Gaussian World Model from Dual State Videos [14.213608866611784]
本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
論文 参考訳(メタデータ) (2025-06-05T16:33:32Z) - Seeing World Dynamics in a Nutshell [132.79736435144403]
NutWorldはモノクロ動画をダイナミックな3D表現に変換するフレームワークである。
我々は,NutWorldがリアルタイムにダウンストリームアプリケーションを実現しつつ,高忠実度ビデオ再構成品質を実現することを実証した。
論文 参考訳(メタデータ) (2025-02-05T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。