論文の概要: Video Perception Models for 3D Scene Synthesis
- arxiv url: http://arxiv.org/abs/2506.20601v1
- Date: Wed, 25 Jun 2025 16:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.860142
- Title: Video Perception Models for 3D Scene Synthesis
- Title(参考訳): 3次元シーン合成のための映像知覚モデル
- Authors: Rui Huang, Guangyao Zhai, Zuria Bauer, Marc Pollefeys, Federico Tombari, Leonidas Guibas, Gao Huang, Francis Engelmann,
- Abstract要約: VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。
VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
- 参考スコア(独自算出の注目度): 109.5543506037003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, 3D scene synthesis requires expert knowledge and significant manual effort. Automating this process could greatly benefit fields such as architectural design, robotics simulation, virtual reality, and gaming. Recent approaches to 3D scene synthesis often rely on the commonsense reasoning of large language models (LLMs) or strong visual priors of modern image generation models. However, current LLMs demonstrate limited 3D spatial reasoning ability, which restricts their ability to generate realistic and coherent 3D scenes. Meanwhile, image generation-based methods often suffer from constraints in viewpoint selection and multi-view inconsistencies. In this work, we present Video Perception models for 3D Scene synthesis (VIPScene), a novel framework that exploits the encoded commonsense knowledge of the 3D physical world in video generation models to ensure coherent scene layouts and consistent object placements across views. VIPScene accepts both text and image prompts and seamlessly integrates video generation, feedforward 3D reconstruction, and open-vocabulary perception models to semantically and geometrically analyze each object in a scene. This enables flexible scene synthesis with high realism and structural consistency. For more precise analysis, we further introduce First-Person View Score (FPVScore) for coherence and plausibility evaluation, utilizing continuous first-person perspective to capitalize on the reasoning ability of multimodal large language models. Extensive experiments show that VIPScene significantly outperforms existing methods and generalizes well across diverse scenarios. The code will be released.
- Abstract(参考訳): 伝統的に、3Dシーンの合成には専門知識と重要な手作業が必要である。
このプロセスの自動化は、アーキテクチャ設計、ロボットシミュレーション、仮想現実、ゲームといった分野に大きな恩恵をもたらす可能性がある。
近年の3次元シーン合成のアプローチは、大規模言語モデル(LLM)の常識的推論や、現代の画像生成モデルの強力な視覚的先行性に依存していることが多い。
しかし、現在のLLMは3次元空間推論能力が限られており、現実的でコヒーレントな3Dシーンを生成する能力が制限されている。
一方、画像生成に基づく手法は視点選択や複数視点の不整合の制約に悩まされることが多い。
本研究では,3次元シーン合成のための映像知覚モデル(VIPScene)を提案する。このフレームワークは,映像生成モデルにおける3次元物理世界のエンコードされたコモンセンス知識を利用して,一貫したシーンレイアウトと,ビュー間の一貫したオブジェクト配置を保証する。
VIPSceneはテキストと画像の両方のプロンプトを受け入れ、ビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルとシームレスに統合し、シーン内の各オブジェクトを意味的に幾何学的に分析する。
これにより、高いリアリズムと構造一貫性を持つフレキシブルなシーン合成が可能になる。
より正確な分析のために,マルチモーダルな大言語モデルの推論能力を活かすために,連続的な一対一視点を利用して,コヒーレンスと妥当性評価のためのFPVScore(First-Person View Score)を導入する。
大規模な実験により、VIPSceneは既存の手法を著しく上回り、様々なシナリオでうまく一般化していることがわかった。
コードはリリースされます。
関連論文リスト
- ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models [57.30913211264333]
提案するStory3D-Agentは、提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチである。
プロシージャモデリングを統合することで,複数文字の動作や動きを正確に制御できるだけでなく,多様な装飾的要素も利用できる。
我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。
論文 参考訳(メタデータ) (2024-08-21T17:43:15Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - DORSal: Diffusion for Object-centric Representations of Scenes et al [28.181157214966493]
最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
本研究では,凍結したオブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
論文 参考訳(メタデータ) (2023-06-13T18:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。