Fugu-MT 論文翻訳(概要): Multi-view Image Prompted Multi-view Diffusion for Improved 3D Generation

論文の概要: Multi-view Image Prompted Multi-view Diffusion for Improved 3D Generation

arxiv url: http://arxiv.org/abs/2404.17419v1
Date: Fri, 26 Apr 2024 13:55:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 13:05:13.678992
Title: Multi-view Image Prompted Multi-view Diffusion for Improved 3D Generation
Title（参考訳）: マルチビュー画像のマルチビュー拡散による3次元生成の高速化
Authors: Seungwook Kim, Yichun Shi, Kejie Li, Minsu Cho, Peng Wang,
Abstract要約: 我々は、入力プロンプトとしてマルチビュー画像をサポートするために、新しい画像プロンプト多視点拡散モデルであるImageDreamを構築した。我々の手法はMultiImageDreamと呼ばれ、シングルイメージプロンプトからマルチイメージプロンプトへの移行により、マルチビューおよび3Dオブジェクト生成の性能が向上することを明らかにする。
参考スコア（独自算出の注目度）: 48.595946437886774
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Using image as prompts for 3D generation demonstrate particularly strong performances compared to using text prompts alone, for images provide a more intuitive guidance for the 3D generation process. In this work, we delve into the potential of using multiple image prompts, instead of a single image prompt, for 3D generation. Specifically, we build on ImageDream, a novel image-prompt multi-view diffusion model, to support multi-view images as the input prompt. Our method, dubbed MultiImageDream, reveals that transitioning from a single-image prompt to multiple-image prompts enhances the performance of multi-view and 3D object generation according to various quantitative evaluation metrics and qualitative assessments. This advancement is achieved without the necessity of fine-tuning the pre-trained ImageDream multi-view diffusion model.
Abstract（参考訳）: 3D生成のプロンプトとして画像を使用することは、テキストプロンプトのみを使用する場合と比較して特に強力なパフォーマンスを示し、画像は3D生成プロセスに対してより直感的なガイダンスを提供する。本研究では,1つの画像プロンプトではなく,複数の画像プロンプトを使用する可能性を探究する。具体的には、入力プロンプトとしてマルチビュー画像をサポートするために、新しい画像プロンプト多視点拡散モデルであるImageDreamを構築した。提案手法はMultiImageDreamと呼ばれ,複数画像のプロンプトから複数画像のプロンプトへの遷移により,様々な定量的評価指標と定性評価に基づいて,多視点・3次元オブジェクト生成の性能が向上することを明らかにする。この進歩は、事前訓練されたImageDreamマルチビュー拡散モデルを微調整する必要なく達成される。

関連論文リスト

Tencent Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation [22.699173137070883]
Hunyuan3D-1.0はテキストおよび画像条件生成をサポートする2段階のアプローチである。最初の段階では、約4秒で効率よくマルチビューRGBを生成するマルチビュー拡散モデルを用いる。第2段階では、3Dアセットを迅速かつ忠実に再構築するフィードフォワード再構築モデルを導入する。我々のフレームワークは、Hunyuan-DiTというテキスト・ツー・イメージ・モデルで、テキスト・コンディショニングとイメージ・コンディショニングの両方をサポートする統一的なフレームワークである。
論文参考訳（メタデータ） (2024-11-04T17:21:42Z)
Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention [54.66152436050373]
本稿では,M-LRM(Multi-view Large Restruction Model)を提案する。具体的には、M-LRMが入力画像から情報を正確にクエリできるマルチビュー整合型クロスアテンション方式を提案する。従来の手法と比較して,提案手法は高忠実度の3次元形状を生成することができる。
論文参考訳（メタデータ） (2024-06-11T18:29:13Z)
Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文参考訳（メタデータ） (2024-05-31T17:59:56Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文参考訳（メタデータ） (2024-03-18T17:48:15Z)
3D-aware Image Generation and Editing with Multi-modal Conditions [6.444512435220748]
1つの2Dセマンティックラベルから3D一貫性のある画像を生成することは、コンピュータグラフィックスとコンピュータビジョンにおいて重要かつ困難な研究トピックである。複数種類の条件入力を組み込んだ新しい3D画像生成・編集モデルを提案する。提案手法は,異なるノイズを持つ多様な画像を生成し,テキスト記述を通じて属性を編集し,参照RGB画像を与えることでスタイル転送を行う。
論文参考訳（メタデータ） (2024-03-11T07:10:37Z)
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文参考訳（メタデータ） (2024-02-07T17:57:03Z)
ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文参考訳（メタデータ） (2023-10-16T12:29:29Z)
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image [59.75474518708409]
SyncDreamerと呼ばれる新しい拡散モデルが単一ビュー画像から複数ビュー一貫性のある画像を生成する。実験の結果、SyncDreamerはさまざまなビューに対して高い一貫性を持つ画像を生成することがわかった。
論文参考訳（メタデータ） (2023-09-07T02:28:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。