論文の概要: Bootstrap3D: Improving 3D Content Creation with Synthetic Data
- arxiv url: http://arxiv.org/abs/2406.00093v1
- Date: Fri, 31 May 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:43:16.461511
- Title: Bootstrap3D: Improving 3D Content Creation with Synthetic Data
- Title(参考訳): Bootstrap3D: 合成データによる3Dコンテンツ作成の改善
- Authors: Zeyi Sun, Tong Wu, Pan Zhang, Yuhang Zang, Xiaoyi Dong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang,
- Abstract要約: 重要なボトルネックは、詳細なキャプションを備えた高品質な3Dアセットの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
- 参考スコア(独自算出の注目度): 80.92268916571712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed remarkable progress in multi-view diffusion models for 3D content creation. However, there remains a significant gap in image quality and prompt-following ability compared to 2D diffusion models. A critical bottleneck is the scarcity of high-quality 3D assets with detailed captions. To address this challenge, we propose Bootstrap3D, a novel framework that automatically generates an arbitrary quantity of multi-view images to assist in training multi-view diffusion models. Specifically, we introduce a data generation pipeline that employs (1) 2D and video diffusion models to generate multi-view images based on constructed text prompts, and (2) our fine-tuned 3D-aware MV-LLaVA for filtering high-quality data and rewriting inaccurate captions. Leveraging this pipeline, we have generated 1 million high-quality synthetic multi-view images with dense descriptive captions to address the shortage of high-quality 3D data. Furthermore, we present a Training Timestep Reschedule (TTR) strategy that leverages the denoising process to learn multi-view consistency while maintaining the original 2D diffusion prior. Extensive experiments demonstrate that Bootstrap3D can generate high-quality multi-view images with superior aesthetic quality, image-text alignment, and maintained view consistency.
- Abstract(参考訳): 近年,3次元コンテンツ作成のための多視点拡散モデルが顕著に進歩している。
しかし,2次元拡散モデルと比較すると,画像品質と高速追従能力には大きな差がある。
重要なボトルネックは、詳細なキャプションを備えた高品質な3Dアセットの不足である。
この課題に対処するため、我々は、任意の量のマルチビュー画像を自動生成し、マルチビュー拡散モデルのトレーニングを支援する新しいフレームワークBootstrap3Dを提案する。
具体的には,(1)2Dおよびビデオ拡散モデルを用いて,構築されたテキストプロンプトに基づいてマルチビュー画像を生成するデータ生成パイプラインを導入し,(2)高品質なデータをフィルタリングし,不正確な字幕を書き換えるための細調整された3D対応MV-LLaVAを提案する。
このパイプラインを活用することで、高品質な3Dデータの不足に対処するため、高密度な記述キャプションを備えた100万の高品質な合成マルチビュー画像を生成しました。
さらに,従来の2次元拡散を事前に維持しつつ,マルチビューの一貫性を学習するために,デノナイズプロセスを活用するトレーニングタイムステップ再スケジュール(TTR)戦略を提案する。
大規模な実験により、Bootstrap3Dは優れた美的品質、画像テキストアライメント、メンテナンスされたビュー一貫性を備えた高品質なマルチビュー画像を生成することができることが示された。
関連論文リスト
- Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。
我々は,事前学習したビデオと多視点拡散モデルのスコア合成による,シンプルで効果的な復調戦略を設計する。
私たちのフレームワークは数分で4Dコンテンツを生成できます。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [13.551691697814908]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。