論文の概要: CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction
Model
- arxiv url: http://arxiv.org/abs/2403.05034v1
- Date: Fri, 8 Mar 2024 04:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:09:27.824818
- Title: CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction
Model
- Title(参考訳): CRM:畳み込み再構成モデルによる3Dテクスチャメッシュへのシングルイメージ
- Authors: Zhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen,
Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu
- Abstract要約: 本稿では,高忠実度フィードフォワード画像から3次元画像生成モデルを提案する。
ネットワーク設計に幾何学的事前情報を統合する必要性を強調した。
我々のモデルは、テストタイムの最適化なしに、画像から10秒で高忠実なテクスチャメッシュを提供する。
- 参考スコア(独自算出の注目度): 37.75256020559125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feed-forward 3D generative models like the Large Reconstruction Model (LRM)
have demonstrated exceptional generation speed. However, the transformer-based
methods do not leverage the geometric priors of the triplane component in their
architecture, often leading to sub-optimal quality given the limited size of 3D
data and slow training. In this work, we present the Convolutional
Reconstruction Model (CRM), a high-fidelity feed-forward single image-to-3D
generative model. Recognizing the limitations posed by sparse 3D data, we
highlight the necessity of integrating geometric priors into network design.
CRM builds on the key observation that the visualization of triplane exhibits
spatial correspondence of six orthographic images. First, it generates six
orthographic view images from a single input image, then feeds these images
into a convolutional U-Net, leveraging its strong pixel-level alignment
capabilities and significant bandwidth to create a high-resolution triplane.
CRM further employs Flexicubes as geometric representation, facilitating direct
end-to-end optimization on textured meshes. Overall, our model delivers a
high-fidelity textured mesh from an image in just 10 seconds, without any
test-time optimization.
- Abstract(参考訳): 大再構成モデル(LRM)のようなフィードフォワード3D生成モデルは、例外的な生成速度を示している。
しかし、トランスフォーマーベースの手法は、そのアーキテクチャにおける三面体コンポーネントの幾何学的先行を利用せず、しばしば3Dデータのサイズが制限され、訓練が遅いため、最適以下の品質につながる。
本研究では,高忠実度フィードフォワード画像から3次元画像生成モデルである畳み込み再構成モデル(CRM)を提案する。
スパース3dデータによって生じる制限を認識し,ネットワーク設計に幾何学的優先事項を統合する必要性を強調した。
CRMは、三面体の可視化が6つの直交画像の空間的対応を示すという重要な観察に基づいている。
まず、単一の入力画像から6つの直視画像を生成し、その画像を畳み込みU-Netに入力し、その強力なピクセルレベルのアライメント機能と帯域幅を活用して高解像度のトリプレーンを生成する。
crmはさらにフレキシキューブを幾何学表現として採用し、テクスチャメッシュ上でのエンドツーエンドの直接最適化を容易にする。
全体として、我々のモデルは、テストタイムの最適化なしに、画像から10秒で高忠実なテクスチャメッシュを提供する。
関連論文リスト
- From Flat to Spatial: Comparison of 4 methods constructing 3D, 2 and 1/2D Models from 2D Plans with neural networks [0.0]
単一画像を2Dおよび1/2Dおよび3Dメッシュに変換することは、設計の可視化と効率を高めるための有望な技術である。
本稿では,「1-2-3-45」,「CRM:畳み込み再構成モデルを用いた3次元テクスチャメッシュへのシングルイメージ」,「インスタントメッシュ」,「イメージ・トゥ・メッシュ」の4つの革新的な手法について検討する。
論文 参考訳(メタデータ) (2024-07-29T13:01:20Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。
提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文 参考訳(メタデータ) (2024-06-09T05:19:24Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models [66.83681825842135]
InstantMeshは、単一のイメージからインスタント3Dメッシュを生成するためのフィードフォワードフレームワークである。
最新世代の品質とトレーニングのスケーラビリティが特徴だ。
InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献ができることを意図しています。
論文 参考訳(メタデータ) (2024-04-10T17:48:37Z) - FlexiDreamer: Single Image-to-3D Generation with FlexiCubes [20.871847154995688]
FlexiDreamerは、マルチビュー生成イメージから高品質なメッシュを直接再構築する新しいフレームワークである。
提案手法では,1つの画像から3次元の下流タスクにおいて,約1分で高忠実度3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-04-01T08:20:18Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。