論文の概要: FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis
- arxiv url: http://arxiv.org/abs/2503.13265v1
- Date: Mon, 17 Mar 2025 15:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:06.065294
- Title: FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis
- Title(参考訳): FlexWorld: フレキシブル・ビュー・シンセサイザーのための3Dシーンをプログレッシブに拡張
- Authors: Luxi Chen, Zihan Zhou, Min Zhao, Yikai Wang, Ge Zhang, Wenhao Huang, Hao Sun, Ji-Rong Wen, Chongxuan Li,
- Abstract要約: 単一イメージからフレキシブルな3Dシーンを生成するためのフレームワークであるFlexWorldを紹介します。
我々のV2Vモデルは、大きなカメラポーズのバリエーションの下で、新しいビューを生成することができる。
その上でFlexWorldは新しい3Dコンテンツを徐々に生成し、グローバルなシーンに統合します。
- 参考スコア(独自算出の注目度): 61.78754615822363
- License:
- Abstract: Generating flexible-view 3D scenes, including 360{\deg} rotation and zooming, from single images is challenging due to a lack of 3D data. To this end, we introduce FlexWorld, a novel framework consisting of two key components: (1) a strong video-to-video (V2V) diffusion model to generate high-quality novel view images from incomplete input rendered from a coarse scene, and (2) a progressive expansion process to construct a complete 3D scene. In particular, leveraging an advanced pre-trained video model and accurate depth-estimated training pairs, our V2V model can generate novel views under large camera pose variations. Building upon it, FlexWorld progressively generates new 3D content and integrates it into the global scene through geometry-aware scene fusion. Extensive experiments demonstrate the effectiveness of FlexWorld in generating high-quality novel view videos and flexible-view 3D scenes from single images, achieving superior visual quality under multiple popular metrics and datasets compared to existing state-of-the-art methods. Qualitatively, we highlight that FlexWorld can generate high-fidelity scenes with flexible views like 360{\deg} rotations and zooming. Project page: https://ml-gsai.github.io/FlexWorld.
- Abstract(参考訳): 360{\deg}回転やズームを含むフレキシブルな3Dシーンを単一の画像から生成することは、3Dデータの欠如により困難である。
この目的のためにFlexWorldは,(1)粗いシーンからレンダリングされた不完全な入力から高品質な新規ビュー画像を生成する強力なビデオ・ビデオ拡散モデルと,(2)完全な3Dシーンを構築するためのプログレッシブ展開プロセスである。
特に、高度な事前訓練ビデオモデルと正確な深度推定トレーニングペアを利用することで、V2Vモデルは、大きなカメラポーズのバリエーションの下で、新しいビューを生成することができる。
その上でFlexWorldは新しい3Dコンテンツを徐々に生成し、ジオメトリ対応のシーン融合を通じてグローバルなシーンに統合します。
大規模な実験では、単一の画像から高品質のノベルビュービデオとフレキシブルな3Dシーンを生成し、既存の最先端の方法と比較して、複数の一般的なメトリクスやデータセットよりも優れた視覚的品質を達成するためにFlexWorldの有効性を実証している。
質的に言えば、FlexWorldは360{\deg}の回転やズームのようなフレキシブルなビューで高忠実なシーンを生成することができる。
プロジェクトページ: https://ml-gsai.github.io/FlexWorld
関連論文リスト
- T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - World-consistent Video Diffusion with Explicit 3D Modeling [67.39618291644673]
World-Consistent Video Diffusion (WVD)は、XYZ画像を用いた明示的な3D監視を含む新しいフレームワークである。
我々は拡散変換器を訓練し、RGBとXYZフレームの結合分布を学習する。
WVDは、シングルイメージから3D生成、マルチビューステレオ、カメラ制御ビデオ生成といったタスクを統一する。
論文 参考訳(メタデータ) (2024-12-02T18:58:23Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.342899807980654]
3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文 参考訳(メタデータ) (2024-07-21T14:52:51Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。