論文の概要: MeshLRM: Large Reconstruction Model for High-Quality Mesh
- arxiv url: http://arxiv.org/abs/2404.12385v1
- Date: Thu, 18 Apr 2024 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 18:42:29.762831
- Title: MeshLRM: Large Reconstruction Model for High-Quality Mesh
- Title(参考訳): MeshLRM: 高品質メッシュのための大規模再構成モデル
- Authors: Xinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu,
- Abstract要約: MeshLRMは、わずか4つの入力画像から1秒未満で高品質なメッシュを再構築することができる。
提案手法は,スパースビューからのメッシュ再構築を実現し,多くのダウンストリームアプリケーションを実現する。
- 参考スコア(独自算出の注目度): 52.71164862539288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose MeshLRM, a novel LRM-based approach that can reconstruct a high-quality mesh from merely four input images in less than one second. Different from previous large reconstruction models (LRMs) that focus on NeRF-based reconstruction, MeshLRM incorporates differentiable mesh extraction and rendering within the LRM framework. This allows for end-to-end mesh reconstruction by fine-tuning a pre-trained NeRF LRM with mesh rendering. Moreover, we improve the LRM architecture by simplifying several complex designs in previous LRMs. MeshLRM's NeRF initialization is sequentially trained with low- and high-resolution images; this new LRM training strategy enables significantly faster convergence and thereby leads to better quality with less compute. Our approach achieves state-of-the-art mesh reconstruction from sparse-view inputs and also allows for many downstream applications, including text-to-3D and single-image-to-3D generation. Project page: https://sarahweiii.github.io/meshlrm/
- Abstract(参考訳): 我々は,わずか4枚の入力画像から1秒未満で高品質なメッシュを再構築する,新しいLRMベースのアプローチであるMeshLRMを提案する。
NeRFベースの再構成に焦点を当てた従来の大規模な再構成モデル(LRMs)とは異なり、MeshLRMは差別化可能なメッシュ抽出とレンダリングをLRMフレームワークに組み込んでいる。
これにより、トレーニング済みのNeRF LRMをメッシュレンダリングで微調整することで、エンドツーエンドのメッシュ再構築が可能になる。
さらに, 従来のLEMの複雑な設計を単純化することで, LRMアーキテクチャを改良する。
MeshLRMのNeRF初期化は、低解像度と高解像度の画像で順次訓練される。
提案手法は,スパースビュー入力からの最先端メッシュ再構築を実現し,テキスト・トゥ・3Dやシングル・イメージ・トゥ・3D生成など,多くのダウンストリームアプリケーションを実現する。
プロジェクトページ: https://sarahweiii.github.io/meshlrm/
関連論文リスト
- RelitLRM: Generative Relightable Radiance for Large Reconstruction Models [52.672706620003765]
本稿では,新しい照明下での3Dオブジェクトの高品質なガウススプレイティング表現を生成するためのRelitLRMを提案する。
複雑なキャプチャと遅い最適化を必要とする従来の逆レンダリングとは異なり、RelitLRMはフィードフォワードトランスフォーマーベースのモデルを採用している。
スパースビューフィードフォワードRelitLRMは、最先端の密集ビュー最適化ベースラインに対して、競争力のあるリライティング結果を提供する。
論文 参考訳(メタデータ) (2024-10-08T17:40:01Z) - $R^2$-Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement [5.810659946867557]
Neural Radiance Fields (NeRF)に基づくメッシュ再構成は、コンピュータグラフィックス、仮想現実、医療画像などの様々なアプリケーションで人気がある。
マルチビュー画像からメッシュを段階的に生成し,最適化する新しいアルゴリズムを提案する。
本手法は,メッシュレンダリングの品質と幾何学的品質の両方において,高い競争力とロバストな性能を提供する。
論文 参考訳(メタデータ) (2024-08-19T16:33:17Z) - M-LRM: Multi-view Large Reconstruction Model [37.46572626325514]
M-LRM (Multi-view Large Restruction Model) は,高品位な3次元形状を多視点から3次元的に効率的に再構成するように設計されている。
大型再構成モデルと比較すると、提案したM-LRMは128倍の128ドルの高解像度の3次元形状のNeRFを生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。
提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文 参考訳(メタデータ) (2024-06-09T05:19:24Z) - InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models [66.83681825842135]
InstantMeshは、単一のイメージからインスタント3Dメッシュを生成するためのフィードフォワードフレームワークである。
最新世代の品質とトレーニングのスケーラビリティが特徴だ。
InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献ができることを意図しています。
論文 参考訳(メタデータ) (2024-04-10T17:48:37Z) - CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction
Model [37.75256020559125]
本稿では,高忠実度フィードフォワード画像から3次元画像生成モデルを提案する。
ネットワーク設計に幾何学的事前情報を統合する必要性を強調した。
我々のモデルは、テストタイムの最適化なしに、画像から10秒で高忠実なテクスチャメッシュを提供する。
論文 参考訳(メタデータ) (2024-03-08T04:25:29Z) - LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-08T00:03:52Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Residual Multiplicative Filter Networks for Multiscale Reconstruction [24.962697695403037]
我々は,学習した再構成の周波数サポートをきめ細かな制御で粗大な最適化を可能にする,新しい座標ネットワークアーキテクチャとトレーニング手法を提案する。
これらの修正によって、自然画像への粗大なフィッティングのマルチスケール最適化が実現されることを示す。
次に, 単粒子Creo-EM再構成問題に対する合成データセットのモデル評価を行った。
論文 参考訳(メタデータ) (2022-06-01T20:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。