Fugu-MT 論文翻訳(概要): Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation

論文の概要: Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation

arxiv url: http://arxiv.org/abs/2411.02293v1
Date: Mon, 04 Nov 2024 17:21:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.181239
Title: Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation
Title（参考訳）: Hunyuan3D-1.0: テキスト・ツー・3Dと画像・ツー・3D生成のための統一フレームワーク
Authors: Xianghui Yang, Huiwen Shi, Bowen Zhang, Fan Yang, Jiacheng Wang, Hongxu Zhao, Xinhai Liu, Xinzhou Wang, Qingxiang Lin, Jiaao Yu, Lifu Wang, Zhuo Chen, Sicong Liu, Yuhong Liu, Yong Yang, Di Wang, Jie Jiang, Chunchao Guo,
Abstract要約: Hunyuan3D-1.0はテキストおよび画像条件生成をサポートする2段階のアプローチである。最初の段階では、約4秒で効率よくマルチビューRGBを生成するマルチビュー拡散モデルを用いる。第2段階では、3Dアセットを迅速かつ忠実に再構築するフィードフォワード再構築モデルを導入する。我々のフレームワークは、テキスト・ツー・イメージモデルであるHunyuan-DiTを伴い、テキスト・コンディショニングとイメージ・コンディショニングの両方の3D生成をサポートする統一的なフレームワークとなる。
参考スコア（独自算出の注目度）: 22.699173137070883
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: While 3D generative models have greatly improved artists' workflows, the existing diffusion models for 3D generation suffer from slow generation and poor generalization. To address this issue, we propose a two-stage approach named Hunyuan3D-1.0 including a lite version and a standard version, that both support text- and image-conditioned generation. In the first stage, we employ a multi-view diffusion model that efficiently generates multi-view RGB in approximately 4 seconds. These multi-view images capture rich details of the 3D asset from different viewpoints, relaxing the tasks from single-view to multi-view reconstruction. In the second stage, we introduce a feed-forward reconstruction model that rapidly and faithfully reconstructs the 3D asset given the generated multi-view images in approximately 7 seconds. The reconstruction network learns to handle noises and in-consistency introduced by the multi-view diffusion and leverages the available information from the condition image to efficiently recover the 3D structure. % Extensive experimental results demonstrate the effectiveness of Hunyuan3D-1.0 in generating high-quality 3D assets. Our framework involves the text-to-image model ~\ie, Hunyuan-DiT, making it a unified framework to support both text- and image-conditioned 3D generation. Our standard version has $10\times$ more parameters than our lite and other existing model. Our Hunyuan3D-1.0 achieves an impressive balance between speed and quality, significantly reducing generation time while maintaining the quality and diversity of the produced assets.
Abstract（参考訳）: 3D生成モデルはアーティストのワークフローを大幅に改善したが、既存の3D生成の拡散モデルは、遅い生成と一般化の欠如に悩まされている。この問題に対処するため,Hunyuan3D-1.0という2段階のアプローチを提案する。最初の段階では、約4秒で効率よくマルチビューRGBを生成するマルチビュー拡散モデルを用いる。これらの多視点画像は、異なる視点から3Dアセットの豊富な詳細を捉え、単一視点から多視点再構成までのタスクを緩和する。第2段階では,生成したマルチビュー画像から約7秒で,高速かつ忠実に3Dアセットを再構築するフィードフォワード再構成モデルを導入する。再構成ネットワークは、多視点拡散によるノイズや不整合の処理を学習し、条件画像から利用可能な情報を活用して、3D構造を効率よく復元する。 % Hunyuan3D-1.0の高品質な3Dアセット生成における有効性を示した。 Hunyuan-DiT はテキスト・ツー・イメージ・モデル ~\ie, Hunyuan-DiT で,テキスト・コンディショニングとイメージ・コンディショニングの両方をサポートする統一的なフレームワークである。標準バージョンは10\times$ liteや他の既存のモデルよりも多くのパラメータを持ちます。我々のHunyuan3D-1.0は、スピードと品質のバランスを保ちながら、生産資産の品質と多様性を維持しながら、生成時間を著しく短縮する。

関連論文リスト

Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation [15.215597253086612]
我々は,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入する。 Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。
論文参考訳（メタデータ） (2024-12-03T17:58:07Z)
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文参考訳（メタデータ） (2024-05-31T17:59:56Z)
Magic-Boost: Boost 3D Generation with Multi-View Conditioned Diffusion [101.15628083270224]
本稿では,高忠実度新鮮映像を合成する多視点拡散モデルを提案する。次に,得られた粗い結果を精査するための厳密なガイダンスを提供するために,新しい反復更新戦略を導入する。実験の結果、Magic-Boostは粗いインプットを大幅に強化し、リッチな幾何学的およびテクスチュラルな詳細を持つ高品質な3Dアセットを生成する。
論文参考訳（メタデータ） (2024-04-09T16:20:03Z)
VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文参考訳（メタデータ） (2024-03-18T17:48:15Z)
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文参考訳（メタデータ） (2024-03-14T14:31:22Z)
Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文参考訳（メタデータ） (2024-03-13T18:46:33Z)
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文参考訳（メタデータ） (2024-03-04T07:57:05Z)
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文参考訳（メタデータ） (2024-02-07T17:57:03Z)
One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文参考訳（メタデータ） (2023-11-14T03:40:25Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。