論文の概要: One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape
Optimization
- arxiv url: http://arxiv.org/abs/2306.16928v1
- Date: Thu, 29 Jun 2023 13:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 13:20:10.799252
- Title: One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape
Optimization
- Title(参考訳): one-2-3-45: 1つの画像から3dメッシュまでを45秒で最適化
- Authors: Minghua Liu, Chao Xu, Haian Jin, Linghao Chen, Mukund Varma T, Zexiang
Xu, Hao Su
- Abstract要約: 単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題であるが、難しい課題である。
本研究では,任意の物体の1つの画像を入力として取り込み,360度3次元テクスチャメッシュを1回のフィードフォワードパスで生成する手法を提案する。
- 参考スコア(独自算出の注目度): 30.951405623906258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single image 3D reconstruction is an important but challenging task that
requires extensive knowledge of our natural world. Many existing methods solve
this problem by optimizing a neural radiance field under the guidance of 2D
diffusion models but suffer from lengthy optimization time, 3D inconsistency
results, and poor geometry. In this work, we propose a novel method that takes
a single image of any object as input and generates a full 360-degree 3D
textured mesh in a single feed-forward pass. Given a single image, we first use
a view-conditioned 2D diffusion model, Zero123, to generate multi-view images
for the input view, and then aim to lift them up to 3D space. Since traditional
reconstruction methods struggle with inconsistent multi-view predictions, we
build our 3D reconstruction module upon an SDF-based generalizable neural
surface reconstruction method and propose several critical training strategies
to enable the reconstruction of 360-degree meshes. Without costly
optimizations, our method reconstructs 3D shapes in significantly less time
than existing methods. Moreover, our method favors better geometry, generates
more 3D consistent results, and adheres more closely to the input image. We
evaluate our approach on both synthetic data and in-the-wild images and
demonstrate its superiority in terms of both mesh quality and runtime. In
addition, our approach can seamlessly support the text-to-3D task by
integrating with off-the-shelf text-to-image diffusion models.
- Abstract(参考訳): 単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題だが難しい課題である。
既存の手法の多くは、2次元拡散モデルの指導の下でニューラルネットワークの放射場を最適化するが、長い最適化時間、3次元不整合結果、貧弱な幾何学に苦しむ。
本研究では,任意の物体の1つの画像を入力として取り込み,単一のフィードフォワードパスで完全な360度3Dテクスチャメッシュを生成する手法を提案する。
1つの画像が与えられた場合、まずビュー条件付き2次元拡散モデルZero123を用いて、入力ビュー用のマルチビュー画像を生成し、それからそれを3次元空間に引き上げる。
従来の再構成手法は一貫性のないマルチビュー予測に苦慮しているため,SDFに基づく一般化可能なニューラルサーフェス再構成法に基づいて3次元再構成モジュールを構築し,360度メッシュの再構築を可能にするための重要なトレーニング戦略を提案する。
コストのかかる最適化がなければ,既存の手法よりもはるかに少ない時間で3次元形状を再構成する。
さらに,より優れた幾何学を好み,さらに3次元の一貫性のある結果を生成し,入力画像に密着する。
我々は,合成データとインザ・ワイルド画像の両方に対するアプローチを評価し,メッシュ品質とランタイムの両面でその優位性を示す。
さらに,本手法は,既成のテキストから画像への拡散モデルと統合することにより,テキストから3dへのタスクをシームレスにサポートする。
関連論文リスト
- GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。
提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文 参考訳(メタデータ) (2024-06-09T05:19:24Z) - Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。
しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。
本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T02:30:31Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。