論文の概要: NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
- arxiv url: http://arxiv.org/abs/2601.00393v1
- Date: Thu, 01 Jan 2026 17:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.420902
- Title: NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
- Title(参考訳): NeoVerseの4Dワールドモデル
- Authors: Yuxue Yang, Lue Fan, Ziqi Shi, Junran Peng, Feng Wang, Zhaoxiang Zhang,
- Abstract要約: 提案するNeoVerseは, 4次元再構成, 新規トラジェクティブビデオ生成, リッチダウンストリームアプリケーションを実現する汎用4Dワールドモデルである。
特にNeoVerseは、ポーズなしフィードフォワード4D再構成、オンライン単分子分解パターンシミュレーション、その他よく整合したテクニックを備えている。
- 参考スコア(独自算出の注目度): 31.848741977981373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose NeoVerse, a versatile 4D world model that is capable of 4D reconstruction, novel-trajectory video generation, and rich downstream applications. We first identify a common limitation of scalability in current 4D world modeling methods, caused either by expensive and specialized multi-view 4D data or by cumbersome training pre-processing. In contrast, our NeoVerse is built upon a core philosophy that makes the full pipeline scalable to diverse in-the-wild monocular videos. Specifically, NeoVerse features pose-free feed-forward 4D reconstruction, online monocular degradation pattern simulation, and other well-aligned techniques. These designs empower NeoVerse with versatility and generalization to various domains. Meanwhile, NeoVerse achieves state-of-the-art performance in standard reconstruction and generation benchmarks. Our project page is available at https://neoverse-4d.github.io
- Abstract(参考訳): 本稿では,4次元再構成,新軌道ビデオ生成,下流のリッチな応用が可能な多目的4次元世界モデルであるNeoVerseを提案する。
まず,従来の4Dワールドモデリング手法におけるスケーラビリティの共通的な限界を,高価で特殊なマルチビュー4Dデータや,面倒なトレーニング前処理によって特定する。
対照的に、NeoVerseはコア哲学に基づいており、完全なパイプラインを多種多様な単眼ビデオにスケーラブルにする。
特にNeoVerseは、ポーズなしフィードフォワード4D再構成、オンライン単分子分解パターンシミュレーション、その他よく整合したテクニックを備えている。
これらの設計により、さまざまなドメインに汎用性と一般化を備えたNeoVerseが実現される。
一方、NeoVerseは標準的な再構築と生成ベンチマークで最先端のパフォーマンスを実現している。
私たちのプロジェクトページはhttps://neoverse-4d.github.ioで公開されています。
関連論文リスト
- SEE4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting [83.5106058182799]
SEE4Dは, カジュアルビデオから4次元世界モデリングを行うための, ポーズのないトラジェクトリ・ツー・カメラ・フレームワークである。
モデル内のビュー条件ビデオは、現実的に合成された画像を認知する前に、ロバストな幾何学を学ぶために訓練される。
クロスビュービデオ生成とスパース再構成のベンチマークでSee4Dを検証した。
論文 参考訳(メタデータ) (2025-10-30T17:59:39Z) - TesserAct: Learning 4D Embodied World Models [66.8519958275311]
我々は、RGB-DN(RGB、Depth、Normal)ビデオのトレーニングにより、4Dワールドモデルを学ぶ。
これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
論文 参考訳(メタデータ) (2025-04-29T17:59:30Z) - Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting [26.54811754399946]
そこで我々は,視線を増大させることにより4次元モノクロ映像合成を向上させる新しいアプローチであるVivid4Dを紹介した。
これは、観察されたビューを新たな視点に歪曲するビデオインペインティングタスクとして、ビュー増強を再構成する。
実験により,本手法はモノラルな4次元シーンの再現と完了を効果的に改善することが示された。
論文 参考訳(メタデータ) (2025-04-15T11:38:14Z) - PaintScene4D: Consistent 4D Scene Generation from Text Prompts [29.075849524496707]
PaintScene4Dは、新しいテキストから4Dのシーン生成フレームワークである。
さまざまな現実世界のデータセットでトレーニングされたビデオ生成モデルを活用する。
任意の軌道から見ることができるリアルな4Dシーンを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:59:57Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。
4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文 参考訳(メタデータ) (2024-07-10T17:23:33Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。