論文の概要: GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement
- arxiv url: http://arxiv.org/abs/2406.05649v2
- Date: Thu, 13 Jun 2024 18:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 18:13:31.822693
- Title: GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement
- Title(参考訳): GTR:幾何学とテクスチャリファインメントによる大規模3次元再構成モデルの改善
- Authors: Peiye Zhuang, Songfang Han, Chaoyang Wang, Aliaksandr Siarohin, Jiaxu Zou, Michael Vasilkovsky, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Hsin-Ying Lee,
- Abstract要約: マルチビュー画像から3次元メッシュを再構成する手法を提案する。
提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
- 参考スコア(独自算出の注目度): 51.97726804507328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach for 3D mesh reconstruction from multi-view images. Our method takes inspiration from large reconstruction models like LRM that use a transformer-based triplane generator and a Neural Radiance Field (NeRF) model trained on multi-view images. However, in our method, we introduce several important modifications that allow us to significantly enhance 3D reconstruction quality. First of all, we examine the original LRM architecture and find several shortcomings. Subsequently, we introduce respective modifications to the LRM architecture, which lead to improved multi-view image representation and more computationally efficient training. Second, in order to improve geometry reconstruction and enable supervision at full image resolution, we extract meshes from the NeRF field in a differentiable manner and fine-tune the NeRF model through mesh rendering. These modifications allow us to achieve state-of-the-art performance on both 2D and 3D evaluation metrics, such as a PSNR of 28.67 on Google Scanned Objects (GSO) dataset. Despite these superior results, our feed-forward model still struggles to reconstruct complex textures, such as text and portraits on assets. To address this, we introduce a lightweight per-instance texture refinement procedure. This procedure fine-tunes the triplane representation and the NeRF color estimation model on the mesh surface using the input multi-view images in just 4 seconds. This refinement improves the PSNR to 29.79 and achieves faithful reconstruction of complex textures, such as text. Additionally, our approach enables various downstream applications, including text- or image-to-3D generation.
- Abstract(参考訳): マルチビュー画像から3次元メッシュを再構成する手法を提案する。
提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いて, マルチビュー画像から学習したLRMのような大規模再構成モデルから着想を得たものである。
しかし,本手法では3次元再構成の精度を大幅に向上させることができる重要な改良がいくつか導入されている。
まず、元のLEMアーキテクチャを調べ、いくつかの欠点を見出す。
その後,LRMアーキテクチャに改良を加え,マルチビュー画像表現の改善と,より効率的なトレーニングを実現する。
第二に、幾何再構成を改善し、全像解像度での監視を可能にするために、NeRFフィールドから異なる方法でメッシュを抽出し、メッシュレンダリングによりNeRFモデルを微調整する。
これらの修正により、Google Scanned Objects(GSO)データセット上のPSNR28.67のような、2Dおよび3D評価メトリクスの最先端のパフォーマンスを実現できます。
これらの優れた結果にもかかわらず、我々のフィードフォワードモデルは、資産上のテキストや肖像画のような複雑なテクスチャの再構築に苦慮している。
この問題に対処するため,我々は軽量なインスタンス・テクスチャ・リファインメント・プロシージャを導入する。
この手法は入力されたマルチビュー画像を用いてメッシュ表面のトリプレーン表現とNeRF色推定モデルをわずか4秒で微調整する。
この改良はPSNRを29.79に改善し、テキストのような複雑なテクスチャを忠実に再構築する。
さらに,本手法は,テキストや画像から3D生成など,さまざまなダウンストリームアプリケーションを実現する。
関連論文リスト
- $R^2$-Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement [5.810659946867557]
Neural Radiance Fields (NeRF)に基づくメッシュ再構成は、コンピュータグラフィックス、仮想現実、医療画像などの様々なアプリケーションで人気がある。
マルチビュー画像からメッシュを段階的に生成し,最適化する新しいアルゴリズムを提案する。
本手法は,メッシュレンダリングの品質と幾何学的品質の両方において,高い競争力とロバストな性能を提供する。
論文 参考訳(メタデータ) (2024-08-19T16:33:17Z) - From Flat to Spatial: Comparison of 4 methods constructing 3D, 2 and 1/2D Models from 2D Plans with neural networks [0.0]
単一画像を2Dおよび1/2Dおよび3Dメッシュに変換することは、設計の可視化と効率を高めるための有望な技術である。
本稿では,「1-2-3-45」,「CRM:畳み込み再構成モデルを用いた3次元テクスチャメッシュへのシングルイメージ」,「インスタントメッシュ」,「イメージ・トゥ・メッシュ」の4つの革新的な手法について検討する。
論文 参考訳(メタデータ) (2024-07-29T13:01:20Z) - MaRINeR: Enhancing Novel Views by Matching Rendered Images with Nearby References [49.71130133080821]
MaRINeRは、近くのマッピング画像の情報を活用して、ターゲット視点のレンダリングを改善する方法である。
暗黙のシーン表現と暗黙のシーン表現の両方から、定量的な指標と定性的な例のレンダリングの改善を示す。
論文 参考訳(メタデータ) (2024-07-18T17:50:03Z) - Fine-Grained Multi-View Hand Reconstruction Using Inverse Rendering [11.228453237603834]
本稿では,逆レンダリングを利用して手ポーズを復元し,詳細を複雑化する多視点ハンドメッシュ再構成手法を提案する。
また、ハンドメッシュとテクスチャの両方を洗練させるために、新しいハンドアルベドとメッシュ(HAM)最適化モジュールも導入した。
提案手法は,再現精度とレンダリング品質の両面において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-08T07:28:24Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction
Model [37.75256020559125]
本稿では,高忠実度フィードフォワード画像から3次元画像生成モデルを提案する。
ネットワーク設計に幾何学的事前情報を統合する必要性を強調した。
我々のモデルは、テストタイムの最適化なしに、画像から10秒で高忠実なテクスチャメッシュを提供する。
論文 参考訳(メタデータ) (2024-03-08T04:25:29Z) - One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape
Optimization [30.951405623906258]
単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題であるが、難しい課題である。
本研究では,任意の物体の1つの画像を入力として取り込み,360度3次元テクスチャメッシュを1回のフィードフォワードパスで生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-29T13:28:16Z) - Delicate Textured Mesh Recovery from NeRF via Adaptive Surface
Refinement [78.48648360358193]
画像からテクスチャ化された表面メッシュを生成する新しいフレームワークを提案する。
我々のアプローチは、NeRFを用いて幾何学とビュー依存の外観を効率的に初期化することから始まります。
ジオメトリと共同で外観を洗練し、テクスチャ画像に変換してリアルタイムレンダリングします。
論文 参考訳(メタデータ) (2023-03-03T17:14:44Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Fast-GANFIT: Generative Adversarial Network for High Fidelity 3D Face
Reconstruction [76.1612334630256]
我々は、GAN(Generative Adversarial Networks)とDCNN(Deep Convolutional Neural Networks)の力を利用して、単一画像から顔のテクスチャと形状を再構築する。
3次元顔再構成を保存したフォトリアリスティックでアイデンティティに優れた結果を示し, 初めて, 高精度な顔テクスチャ再構成を実現する。
論文 参考訳(メタデータ) (2021-05-16T16:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。