論文の概要: Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE
- arxiv url: http://arxiv.org/abs/2408.05477v2
- Date: Tue, 20 Aug 2024 10:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:00:29.696099
- Title: Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE
- Title(参考訳): Scene123:ビデオアシストと一貫性強化による3Dシーン生成
- Authors: Yiying Yang, Fukun Yin, Jiayuan Fan, Xin Chen, Wanzhang Li, Gang Yu,
- Abstract要約: Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。
具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。
生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
- 参考スコア(独自算出の注目度): 22.072200443502457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Artificial Intelligence Generated Content (AIGC) advances, a variety of methods have been developed to generate text, images, videos, and 3D objects from single or multimodal inputs, contributing efforts to emulate human-like cognitive content creation. However, generating realistic large-scale scenes from a single input presents a challenge due to the complexities involved in ensuring consistency across extrapolated views generated by models. Benefiting from recent video generation models and implicit neural representations, we propose Scene123, a 3D scene generation model, that not only ensures realism and diversity through the video generation framework but also uses implicit neural fields combined with Masked Autoencoders (MAE) to effectively ensures the consistency of unseen areas across views. Specifically, we initially warp the input image (or an image generated from text) to simulate adjacent views, filling the invisible areas with the MAE model. However, these filled images usually fail to maintain view consistency, thus we utilize the produced views to optimize a neural radiance field, enhancing geometric consistency. Moreover, to further enhance the details and texture fidelity of generated views, we employ a GAN-based Loss against images derived from the input image through the video generation model. Extensive experiments demonstrate that our method can generate realistic and consistent scenes from a single prompt. Both qualitative and quantitative results indicate that our approach surpasses existing state-of-the-art methods. We show encourage video examples at https://yiyingyang12.github.io/Scene123.github.io/.
- Abstract(参考訳): AIGC(Artificial Intelligence Generated Content)の発展に伴い、テキスト、画像、ビデオ、および3Dオブジェクトを単一またはマルチモーダル入力から生成する様々な手法が開発され、ヒューマンライクな認知コンテンツ生成のエミュレートに寄与している。
しかし、1つの入力から現実的な大規模なシーンを生成することは、モデルによって生成された外挿されたビュー間の一貫性を確保するのにまつわる複雑さのため、課題となる。
近年の映像生成モデルと暗黙的ニューラル表現に相応しい3Dシーン生成モデルであるScene123を提案する。これは映像生成フレームワークを通じてリアリズムと多様性を保証するだけでなく、Masked Autoencoders(MAE)と組み合わせて暗黙的ニューラルフィールドを使用して、ビュー全体における見えない領域の一貫性を効果的に確保する。
具体的には、まず入力画像(またはテキストから生成された画像)をワープし、隣接するビューをシミュレートし、MAEモデルで見えない領域を埋める。
しかし,これらの画像は視界の整合性の維持に失敗するため,生成したビューを利用してニューラルラディアンス場を最適化し,幾何的整合性を向上させる。
さらに、生成したビューの細部やテクスチャの忠実度をさらに高めるために、映像生成モデルを通じて入力画像から得られる画像に対して、GANベースのロスを用いる。
大規模な実験により,一つのプロンプトから現実的で一貫したシーンを生成できることが実証された。
定性的かつ定量的な結果は、我々のアプローチが既存の最先端手法を上回ることを示している。
ビデオ例はhttps://yiyingyang12.github.io/Scene123.github.io/で紹介する。
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - Generative Object Insertion in Gaussian Splatting with a Multi-View Diffusion Model [15.936267489962122]
ガウス散乱で表される3次元コンテンツに物体を挿入する新しい手法を提案する。
提案手法では,事前学習した安定した映像拡散モデルに基づいて,MVInpainterと呼ばれる多視点拡散モデルを導入する。
MVInpainterの内部では、制御されたより予測可能なマルチビュー生成を可能にする制御ネットベースの条件付きインジェクションモジュールが組み込まれている。
論文 参考訳(メタデータ) (2024-09-25T13:52:50Z) - HR Human: Modeling Human Avatars with Triangular Mesh and High-Resolution Textures from Videos [52.23323966700072]
本研究では,モノクロ映像から高精細な物理材料テクスチャとメッシュを付加したアバターの取得のための枠組みを提案する。
本手法では,モノクロ映像からの情報を組み合わせて仮想多視点画像の合成を行う新しい情報融合方式を提案する。
実験により, 提案手法は, 高忠実度で従来の表現よりも優れており, この明示的な結果は共通三角形への展開をサポートすることが示された。
論文 参考訳(メタデータ) (2024-05-18T11:49:09Z) - TexPainter: Generative Mesh Texturing with Multi-view Consistency [20.366302413005734]
本稿では,マルチビューの一貫性を実現するための新しい手法を提案する。
最適化に基づくカラーフュージョンを用いて、一貫性を強制し、勾配バックプロパゲーションにより遅延符号を間接的に修正する。
提案手法は, テクスチャの整合性と全体的な品質を, 競合する最先端技術と比較して向上させる。
論文 参考訳(メタデータ) (2024-05-17T18:41:36Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文 参考訳(メタデータ) (2023-04-19T16:13:21Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Video-driven Neural Physically-based Facial Asset for Production [33.24654834163312]
高品質な物理的資産を持つ動的顔のジオメトリを生成するための,学習に基づく新しいビデオ駆動型アプローチを提案する。
本手法は,従来の映像駆動型顔再構成法やアニメーション法よりも精度が高く,視覚的忠実度が高い。
論文 参考訳(メタデータ) (2022-02-11T13:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。