論文の概要: FlashWorld: High-quality 3D Scene Generation within Seconds
- arxiv url: http://arxiv.org/abs/2510.13678v1
- Date: Wed, 15 Oct 2025 15:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.742923
- Title: FlashWorld: High-quality 3D Scene Generation within Seconds
- Title(参考訳): FlashWorld:秒で高品質な3Dシーン生成
- Authors: Xinyang Li, Tengfei Wang, Zixiao Gu, Shengchuan Zhang, Chunchao Guo, Liujuan Cao,
- Abstract要約: FlashWorldは、単一の画像やテキストプロンプトから数秒で3Dシーンを生成する生成モデルである。
我々のアプローチは、従来のマルチビュー指向(MV指向)パラダイムから3D指向アプローチに移行します。
- 参考スコア(独自算出の注目度): 44.24921660160879
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose FlashWorld, a generative model that produces 3D scenes from a single image or text prompt in seconds, 10~100$\times$ faster than previous works while possessing superior rendering quality. Our approach shifts from the conventional multi-view-oriented (MV-oriented) paradigm, which generates multi-view images for subsequent 3D reconstruction, to a 3D-oriented approach where the model directly produces 3D Gaussian representations during multi-view generation. While ensuring 3D consistency, 3D-oriented method typically suffers poor visual quality. FlashWorld includes a dual-mode pre-training phase followed by a cross-mode post-training phase, effectively integrating the strengths of both paradigms. Specifically, leveraging the prior from a video diffusion model, we first pre-train a dual-mode multi-view diffusion model, which jointly supports MV-oriented and 3D-oriented generation modes. To bridge the quality gap in 3D-oriented generation, we further propose a cross-mode post-training distillation by matching distribution from consistent 3D-oriented mode to high-quality MV-oriented mode. This not only enhances visual quality while maintaining 3D consistency, but also reduces the required denoising steps for inference. Also, we propose a strategy to leverage massive single-view images and text prompts during this process to enhance the model's generalization to out-of-distribution inputs. Extensive experiments demonstrate the superiority and efficiency of our method.
- Abstract(参考訳): 我々は、1つの画像やテキストプロンプトから1秒で3Dシーンを生成する生成モデルであるFlashWorldを提案する。
提案手法は, 従来のマルチビュー指向(MV指向)パラダイムから, モデルがマルチビュー生成中に直接3次元ガウス表現を生成する3D指向アプローチへ移行する。
3Dの一貫性を保証する一方で、3D指向の手法は通常、視覚的品質の低下に悩まされる。
FlashWorldには、デュアルモード事前トレーニングフェーズと、クロスモード後トレーニングフェーズが含まれており、両方のパラダイムの強みを効果的に統合している。
具体的には,ビデオ拡散モデルを用いて,MV指向および3次元指向生成モードを協調的にサポートするデュアルモード多視点拡散モデルの事前学習を行う。
さらに, 連続した3次元指向モードから高品質MV指向モードへの分布を一致させて, クロスモード後蒸留を提案する。
これにより、3D一貫性を維持しながら視覚的品質を向上させるだけでなく、推論に必要なデノイングステップも削減できる。
また,このプロセス中に大量の単一ビュー画像とテキストプロンプトを活用する手法を提案し,アウト・オブ・ディストリビューション・インプットへのモデルの一般化を促進させる。
大規模な実験により,本手法の優位性と効率性を示した。
関連論文リスト
- Flex3D: Feed-Forward 3D Generation with Flexible Reconstruction Model and Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - MVDream: Multi-view Diffusion for 3D Generation [14.106283556521962]
本稿では,テキストプロンプトから一貫した多視点画像を生成可能な拡散モデルMVDreamを紹介する。
2次元データと3次元データの両方から学習すると、多視点拡散モデルは2次元拡散モデルの一般化可能性と3次元レンダリングの整合性を達成することができる。
論文 参考訳(メタデータ) (2023-08-31T07:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。