Fugu-MT 論文翻訳(概要): One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization

論文の概要: One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization

arxiv url: http://arxiv.org/abs/2306.16928v1
Date: Thu, 29 Jun 2023 13:28:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 13:20:10.799252
Title: One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization
Title（参考訳）: one-2-3-45: 1つの画像から3dメッシュまでを45秒で最適化
Authors: Minghua Liu, Chao Xu, Haian Jin, Linghao Chen, Mukund Varma T, Zexiang Xu, Hao Su
Abstract要約: 単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題であるが、難しい課題である。本研究では,任意の物体の1つの画像を入力として取り込み,360度3次元テクスチャメッシュを1回のフィードフォワードパスで生成する手法を提案する。
参考スコア（独自算出の注目度）: 30.951405623906258
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Single image 3D reconstruction is an important but challenging task that requires extensive knowledge of our natural world. Many existing methods solve this problem by optimizing a neural radiance field under the guidance of 2D diffusion models but suffer from lengthy optimization time, 3D inconsistency results, and poor geometry. In this work, we propose a novel method that takes a single image of any object as input and generates a full 360-degree 3D textured mesh in a single feed-forward pass. Given a single image, we first use a view-conditioned 2D diffusion model, Zero123, to generate multi-view images for the input view, and then aim to lift them up to 3D space. Since traditional reconstruction methods struggle with inconsistent multi-view predictions, we build our 3D reconstruction module upon an SDF-based generalizable neural surface reconstruction method and propose several critical training strategies to enable the reconstruction of 360-degree meshes. Without costly optimizations, our method reconstructs 3D shapes in significantly less time than existing methods. Moreover, our method favors better geometry, generates more 3D consistent results, and adheres more closely to the input image. We evaluate our approach on both synthetic data and in-the-wild images and demonstrate its superiority in terms of both mesh quality and runtime. In addition, our approach can seamlessly support the text-to-3D task by integrating with off-the-shelf text-to-image diffusion models.
Abstract（参考訳）: 単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題だが難しい課題である。既存の手法の多くは、2次元拡散モデルの指導の下でニューラルネットワークの放射場を最適化するが、長い最適化時間、3次元不整合結果、貧弱な幾何学に苦しむ。本研究では,任意の物体の1つの画像を入力として取り込み,単一のフィードフォワードパスで完全な360度3Dテクスチャメッシュを生成する手法を提案する。 1つの画像が与えられた場合、まずビュー条件付き2次元拡散モデルZero123を用いて、入力ビュー用のマルチビュー画像を生成し、それからそれを3次元空間に引き上げる。従来の再構成手法は一貫性のないマルチビュー予測に苦慮しているため,SDFに基づく一般化可能なニューラルサーフェス再構成法に基づいて3次元再構成モジュールを構築し,360度メッシュの再構築を可能にするための重要なトレーニング戦略を提案する。コストのかかる最適化がなければ,既存の手法よりもはるかに少ない時間で3次元形状を再構成する。さらに,より優れた幾何学を好み,さらに3次元の一貫性のある結果を生成し,入力画像に密着する。我々は,合成データとインザ・ワイルド画像の両方に対するアプローチを評価し,メッシュ品質とランタイムの両面でその優位性を示す。さらに,本手法は,既成のテキストから画像への拡散モデルと統合することにより,テキストから3dへのタスクをシームレスにサポートする。

関連論文リスト

Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.36303976374455]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。本稿では,新たなモデルトレーニングを必要とせず,幾何や知覚をシームレスに統合する新しい手法を提案する。提案手法の高忠実度化を実証し, 新規なビュー合成法と3次元再構成法とを比較検討した。
論文参考訳（メタデータ） (2025-06-26T11:22:06Z)
HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文参考訳（メタデータ） (2025-03-27T09:45:09Z)
GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文参考訳（メタデータ） (2024-06-09T05:19:24Z)
Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文参考訳（メタデータ） (2024-05-30T17:59:54Z)
LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文参考訳（メタデータ） (2024-05-24T15:09:12Z)
GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文参考訳（メタデータ） (2024-03-15T12:24:36Z)
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文参考訳（メタデータ） (2024-03-04T07:57:05Z)
2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-29T02:30:31Z)
Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文参考訳（メタデータ） (2023-11-10T18:03:44Z)
Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文参考訳（メタデータ） (2023-10-23T15:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。