論文の概要: GenS: Generalizable Neural Surface Reconstruction from Multi-View Images
- arxiv url: http://arxiv.org/abs/2406.02495v1
- Date: Tue, 4 Jun 2024 17:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:10:17.543695
- Title: GenS: Generalizable Neural Surface Reconstruction from Multi-View Images
- Title(参考訳): GenS:多視点画像からの一般化可能なニューラルサーフェス再構成
- Authors: Rui Peng, Xiaodong Gu, Luyang Tang, Shihe Shen, Fanqi Yu, Ronggang Wang,
- Abstract要約: GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。
我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。
人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
- 参考スコア(独自算出の注目度): 20.184657468900852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining the signed distance function (SDF) and differentiable volume rendering has emerged as a powerful paradigm for surface reconstruction from multi-view images without 3D supervision. However, current methods are impeded by requiring long-time per-scene optimizations and cannot generalize to new scenes. In this paper, we present GenS, an end-to-end generalizable neural surface reconstruction model. Unlike coordinate-based methods that train a separate network for each scene, we construct a generalized multi-scale volume to directly encode all scenes. Compared with existing solutions, our representation is more powerful, which can recover high-frequency details while maintaining global smoothness. Meanwhile, we introduce a multi-scale feature-metric consistency to impose the multi-view consistency in a more discriminative multi-scale feature space, which is robust to the failures of the photometric consistency. And the learnable feature can be self-enhanced to continuously improve the matching accuracy and mitigate aggregation ambiguity. Furthermore, we design a view contrast loss to force the model to be robust to those regions covered by few viewpoints through distilling the geometric prior from dense input to sparse input. Extensive experiments on popular benchmarks show that our model can generalize well to new scenes and outperform existing state-of-the-art methods even those employing ground-truth depth supervision. Code is available at https://github.com/prstrive/GenS.
- Abstract(参考訳): 符号付き距離関数(SDF)と可変ボリュームレンダリングを組み合わせた多視点画像から3次元の監督なしに表面再構成を行うための強力なパラダイムとして登場した。
しかし、現在の手法は、長時間のシーンごとの最適化を必要とするため、新しいシーンに一般化できない。
本稿では,エンド・ツー・エンドの一般化可能なニューラルサーフェス再構成モデルであるGenSを提案する。
各シーンごとに個別のネットワークをトレーニングする座標ベースの手法とは異なり、全シーンを直接エンコードする一般化されたマルチスケールボリュームを構築している。
既存のソリューションと比較して、我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を復元することができる。
一方,光度整合性の失敗に対して頑健な,より識別性の高いマルチスケール特徴空間において,マルチビュー整合性を実現するためのマルチスケール特徴量整合性を導入する。
そして、学習可能な特徴を自己強化することで、マッチング精度を継続的に改善し、アグリゲーションのあいまいさを軽減することができる。
さらに,高密度入力からスパース入力への幾何先行を蒸留することにより,モデルが少数の視点でカバーされた領域に対して頑健であるように,視点コントラスト損失を設計する。
一般的なベンチマーク実験により, 地中深度監視を用いた場合であっても, 我々のモデルは新たなシーンによく適応でき, 既存の最先端手法よりも優れることが示された。
コードはhttps://github.com/prstrive/GenS.comで入手できる。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - SparseNeuS: Fast Generalizable Neural Surface Reconstruction from Sparse
views [40.7986573030214]
SparseNeuSは,多視点画像から表面再構成を行う新しいニューラルレンダリング手法である。
SparseNeuSは、新しいシーンに一般化し、スパースイメージ(2または3まで)でうまく機能する。
論文 参考訳(メタデータ) (2022-06-12T13:34:03Z) - MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface
Reconstruction [72.05649682685197]
最先端のニューラル暗黙法は、多くの入力ビューから単純なシーンの高品質な再構築を可能にする。
これは主に、十分な制約を提供していないRGB再構築損失の固有の曖昧さによって引き起こされる。
近年の単分子形状予測の分野での進歩に触発され, ニューラルな暗黙的表面再構成の改善にこれらの方法が役立つかを探究する。
論文 参考訳(メタデータ) (2022-06-01T17:58:15Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Weakly-Supervised Multi-Face 3D Reconstruction [45.864415499303405]
多面的3D再構築のための効果的なエンドツーエンドフレームワークを提案する。
各画像の再構成された顔に対して、同じグローバルカメラモデルを採用し、3dシーンにおける相対的な頭部位置と向きを復元することができる。
論文 参考訳(メタデータ) (2021-01-06T13:15:21Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。