論文の概要: HiFi-123: Towards High-fidelity One Image to 3D Content Generation
- arxiv url: http://arxiv.org/abs/2310.06744v3
- Date: Fri, 12 Jul 2024 01:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 05:46:55.514666
- Title: HiFi-123: Towards High-fidelity One Image to 3D Content Generation
- Title(参考訳): HiFi-123:高精細画像から3Dコンテンツ生成へ
- Authors: Wangbo Yu, Li Yuan, Yan-Pei Cao, Xiangjun Gao, Xiaoyu Li, Wenbo Hu, Long Quan, Ying Shan, Yonghong Tian,
- Abstract要約: HiFi-123は高忠実で多視点で一貫した3D生成のために設計された手法である。
本稿では,拡散型ゼロショットノベルビュー合成法の忠実度を大幅に向上する参照ガイド型新規ビュー拡張(RGNV)技術を提案する。
また,新たにRGSD(Reference-Guided State Distillation)を施行した。
- 参考スコア(独自算出の注目度): 64.81863143986384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have enabled 3D generation from a single image. However, current methods often produce suboptimal results for novel views, with blurred textures and deviations from the reference image, limiting their practical applications. In this paper, we introduce HiFi-123, a method designed for high-fidelity and multi-view consistent 3D generation. Our contributions are twofold: First, we propose a Reference-Guided Novel View Enhancement (RGNV) technique that significantly improves the fidelity of diffusion-based zero-shot novel view synthesis methods. Second, capitalizing on the RGNV, we present a novel Reference-Guided State Distillation (RGSD) loss. When incorporated into the optimization-based image-to-3D pipeline, our method significantly improves 3D generation quality, achieving state-of-the-art performance. Comprehensive evaluations demonstrate the effectiveness of our approach over existing methods, both qualitatively and quantitatively. Video results are available on the project page.
- Abstract(参考訳): 拡散モデルの最近の進歩により、単一の画像から3次元生成が可能になった。
しかし、現在の手法は、ぼやけたテクスチャや参照画像からの逸脱を伴って、新しいビューの最適化結果を生成することが多く、実用的利用を制限している。
本稿では,高忠実かつ多視点で一貫した3次元生成が可能なHiFi-123を提案する。
まず,拡散型ゼロショットノベルビュー合成法の忠実度を大幅に向上させるRGNV(Reference-Guided Novel View Enhancement)手法を提案する。
第二に、RGNVに乗じて、新しいRGSD(Reference-Guided State Distillation)の損失を示す。
最適化に基づくイメージ・ツー・3Dパイプラインに組み込むと、3D生成の品質が大幅に向上し、最先端の性能が達成される。
包括的評価は,既存手法に対するアプローチの有効性を質的,定量的に示すものである。
ビデオはプロジェクトページで見ることができる。
関連論文リスト
- Customize-It-3D: High-Quality 3D Creation from A Single Image Using
Subject-Specific Knowledge Prior [33.45375100074168]
本稿では,参照画像から提供された情報をフル活用して,画像から3D生成に先立ってカスタマイズされた知識を確立する,新しい2段階のアプローチを提案する。
実験では,本手法の優位性であるCustomize-It-3Dが,従来よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-12-15T19:07:51Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - RL Dreams: Policy Gradient Optimization for Score Distillation based 3D
Generation [15.154441074606101]
スコア蒸留サンプリング(SDS)に基づくレンダリングは、3Dアセット生成を大幅に改善した。
DDPO3Dは2次元拡散モデルから3次元レンダリングを改善するために、審美的スコアリングを伴うタンデムのポリシー勾配法を用いている。
提案手法は, 種々の報酬関数を生成過程に組み込むための, 蒸留法と互換性がある。
論文 参考訳(メタデータ) (2023-12-08T02:41:04Z) - HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models [56.112302700630806]
我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。
主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。
提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
論文 参考訳(メタデータ) (2023-11-30T02:33:29Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - HD-Fusion: Detailed Text-to-3D Generation Leveraging Multiple Noise
Estimation [43.83459204345063]
本稿では,複数の雑音推定プロセスと事前学習した2次元拡散を併用した新しい手法を提案する。
その結果,提案手法はベースラインと比較して高品質な細部を生成できることが示唆された。
論文 参考訳(メタデータ) (2023-07-30T09:46:22Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。