論文の概要: Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation
- arxiv url: http://arxiv.org/abs/2411.16185v1
- Date: Mon, 25 Nov 2024 08:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:29.344270
- Title: Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation
- Title(参考訳): Fancy123: プラグイン・アンド・プレイによる高品質な3Dメッシュ生成
- Authors: Qiao Yu, Xianzhi Li, Yuan Tang, Xu Han, Long Hu, Yixue Hao, Min Chen,
- Abstract要約: 2つの拡張モジュールと、上記の3つの問題に対処するための未投射操作を備えたFancy123を提案する。
外観強調モジュールは、2Dマルチビューイメージをリアルピクセルに変形させて、より優れたマルチビュー一貫性を実現する。
忠実度向上モジュールは、入力画像に一致するように3Dメッシュを変形させる。
入力画像と変形したマルチビュー画像をLRMの生成されたメッシュに投影することで、高い明快さが保証される。
- 参考スコア(独自算出の注目度): 22.5996658181606
- License:
- Abstract: Generating 3D meshes from a single image is an important but ill-posed task. Existing methods mainly adopt 2D multiview diffusion models to generate intermediate multiview images, and use the Large Reconstruction Model (LRM) to create the final meshes. However, the multiview images exhibit local inconsistencies, and the meshes often lack fidelity to the input image or look blurry. We propose Fancy123, featuring two enhancement modules and an unprojection operation to address the above three issues, respectively. The appearance enhancement module deforms the 2D multiview images to realign misaligned pixels for better multiview consistency. The fidelity enhancement module deforms the 3D mesh to match the input image. The unprojection of the input image and deformed multiview images onto LRM's generated mesh ensures high clarity, discarding LRM's predicted blurry-looking mesh colors. Extensive qualitative and quantitative experiments verify Fancy123's SoTA performance with significant improvement. Also, the two enhancement modules are plug-and-play and work at inference time, allowing seamless integration into various existing single-image-to-3D methods.
- Abstract(参考訳): 単一のイメージから3Dメッシュを生成することは、重要だが不適切な作業である。
既存の手法は主に2次元多視点拡散モデルを用いて中間的多視点画像を生成し、Large Restruction Model (LRM) を用いて最終メッシュを生成する。
しかし、マルチビュー画像は局所的な矛盾を示し、メッシュは入力画像への忠実さや曖昧さに欠けることが多い。
2つの拡張モジュールと、上記の3つの問題に対処する未投射操作を備えたFancy123を提案する。
外観強調モジュールは、2Dのマルチビューイメージを、より優れたマルチビュー整合性を実現するために、不整合画素に変形させる。
忠実度向上モジュールは、入力画像に一致するように3Dメッシュを変形させる。
入力画像と変形したマルチビュー画像をLRMの生成されたメッシュに投影することで、高い明快さを保証し、LRMの予測されたぼやけたメッシュ色を破棄する。
大規模な定性的および定量的実験により、Fancy123のSoTA性能は大幅に向上した。
また、2つの拡張モジュールはプラグイン・アンド・プレイであり、推論時に動作し、既存の様々な単一画像から3Dメソッドへのシームレスな統合を可能にする。
関連論文リスト
- Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。
Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文 参考訳(メタデータ) (2024-05-19T17:13:16Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion [88.02512124661884]
粗い生成結果を著しく洗練する多視点条件拡散モデルであるMagic-Boostを提案する。
以前のテキストや単一イメージベースの拡散モデルと比較して、Magic-Boostは高一貫性で画像を生成する堅牢な能力を示している。
入力画像の同一性によく整合した正確なSDSガイダンスを提供し、初期生成結果の幾何学的およびテクスチャの局所的な詳細を豊かにする。
論文 参考訳(メタデータ) (2024-04-09T16:20:03Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - From 2D Images to 3D Model:Weakly Supervised Multi-View Face
Reconstruction with Deep Fusion [26.011557635884568]
多視点画像から高精度な3次元顔形状を再構成する新モデルDeep Fusion MVRを提案する。
具体的には、スキップ接続とアテンションを備えた単一復号化フレームワークのマルチビュー符号化であるMulEn-Unetを紹介する。
我々は,多視点画像内の重要な共通顔領域を学習し,識別し,強調するために,顔解析ネットワークを開発した。
論文 参考訳(メタデータ) (2022-04-08T05:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。