Fugu-MT 論文翻訳(概要): Fourier123: One Image to High-Quality 3D Object Generation with Hybrid Fourier Score Distillation

論文の概要: Fourier123: One Image to High-Quality 3D Object Generation with Hybrid Fourier Score Distillation

arxiv url: http://arxiv.org/abs/2405.20669v1
Date: Fri, 31 May 2024 08:11:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 15:16:48.606206
Title: Fourier123: One Image to High-Quality 3D Object Generation with Hybrid Fourier Score Distillation
Title（参考訳）: Fourier123:ハイブリッドフーリエスコア蒸留による高品質3Dオブジェクト生成
Authors: Shuzhou Yang, Yu Wang, Haijie Li, Jiarui Meng, Xiandong Meng, Jian Zhang,
Abstract要約: 我々は、3次元の新規なビュー生成拡散モデルからの幾何的先行と、2次元画像生成法からの外観先行を利用して最適化プロセスの導出を行う。さらに,Fourier123という高品質な3Dオブジェクトを1分以内で生成する画像から3D生成パイプラインを開発した。
参考スコア（独自算出の注目度）: 43.72587101763335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Single image-to-3D generation is pivotal for crafting controllable 3D assets. Given its underconstrained nature, we leverage geometric priors from a 3D novel view generation diffusion model and appearance priors from a 2D image generation method to guide the optimization process. We note that a disparity exists between the training datasets of 2D and 3D diffusion models, leading to their outputs showing marked differences in appearance. Specifically, 2D models tend to deliver more detailed visuals, whereas 3D models produce consistent yet over-smooth results across different views. Hence, we optimize a set of 3D Gaussians using 3D priors in spatial domain to ensure geometric consistency, while exploiting 2D priors in the frequency domain through Fourier transform for higher visual quality. This 2D-3D hybrid Fourier Score Distillation objective function (dubbed hy-FSD), can be integrated into existing 3D generation methods, yielding significant performance improvements. With this technique, we further develop an image-to-3D generation pipeline to create high-quality 3D objects within one minute, named Fourier123. Extensive experiments demonstrate that Fourier123 excels in efficient generation with rapid convergence speed and visual-friendly generation results.
Abstract（参考訳）: 単一の画像から3D生成は、制御可能な3D資産を作る上で重要な要素である。その制約の少ない性質から、3次元の新規なビュー生成拡散モデルからの幾何学的先行と、2次元画像生成法からの外観的先行を利用して最適化プロセスの導出を行う。 2次元拡散モデルと3次元拡散モデルの訓練データセットの間には相違があることに注意し、その出力は外観の顕著な相違を示す。具体的には、2Dモデルはより詳細なビジュアルを提供する傾向があり、3Dモデルは異なるビューで一貫性があるが、過度に滑らかな結果を生成する。したがって,空間領域における3次元先行値を用いた3次元ガウスの集合を最適化し,周波数領域における2次元先行値をフーリエ変換により高画質に活用する。この2D-3Dハイブリッドフーリエスコア蒸留目標関数(hy-FSDと呼ばれる)は既存の3D生成手法に統合することができ、性能が大幅に向上した。この技術により、Fourier123という高品質な3Dオブジェクトを1分以内で作成できる画像から3D生成パイプラインをさらに開発する。大規模な実験により、フーリエ123は高速収束速度と視覚に優しい生成結果で効率的に生成できることが示されている。

関連論文リスト

Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。 3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文参考訳（メタデータ） (2025-01-09T18:37:35Z)
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。 3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文参考訳（メタデータ） (2024-10-12T10:14:11Z)
Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文参考訳（メタデータ） (2024-05-30T17:59:54Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文参考訳（メタデータ） (2023-12-07T10:00:04Z)
One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文参考訳（メタデータ） (2023-11-14T03:40:25Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文参考訳（メタデータ） (2023-06-30T17:59:08Z)
NeRF-GAN Distillation for Efficient 3D-Aware Generation with Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文参考訳（メタデータ） (2023-03-22T18:59:48Z)
Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-15T08:01:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。