論文の概要: GeoTransfer : Generalizable Few-Shot Multi-View Reconstruction via Transfer Learning
- arxiv url: http://arxiv.org/abs/2408.14724v2
- Date: Sat, 28 Sep 2024 16:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 04:52:58.250178
- Title: GeoTransfer : Generalizable Few-Shot Multi-View Reconstruction via Transfer Learning
- Title(参考訳): GeoTransfer : 伝達学習による一般化可能なFew-Shot多視点再構成
- Authors: Shubhendu Jena, Franck Multon, Adnane Boukhayma,
- Abstract要約: ニューラルレージアンスフィールド(NeRF)の表現力を利用したスパース3次元再構成手法を提案する。
提案手法は,NeRF特徴量に符号化された情報を伝達して,正確な占有場表現を導出することにより,両世界の長所を提供する。
我々はDTUデータセットに対する我々のアプローチを評価し、再構築精度の観点から最先端の性能を実証する。
- 参考スコア(独自算出の注目度): 8.452349885923507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel approach for sparse 3D reconstruction by leveraging the expressive power of Neural Radiance Fields (NeRFs) and fast transfer of their features to learn accurate occupancy fields. Existing 3D reconstruction methods from sparse inputs still struggle with capturing intricate geometric details and can suffer from limitations in handling occluded regions. On the other hand, NeRFs excel in modeling complex scenes but do not offer means to extract meaningful geometry. Our proposed method offers the best of both worlds by transferring the information encoded in NeRF features to derive an accurate occupancy field representation. We utilize a pre-trained, generalizable state-of-the-art NeRF network to capture detailed scene radiance information, and rapidly transfer this knowledge to train a generalizable implicit occupancy network. This process helps in leveraging the knowledge of the scene geometry encoded in the generalizable NeRF prior and refining it to learn occupancy fields, facilitating a more precise generalizable representation of 3D space. The transfer learning approach leads to a dramatic reduction in training time, by orders of magnitude (i.e. from several days to 3.5 hrs), obviating the need to train generalizable sparse surface reconstruction methods from scratch. Additionally, we introduce a novel loss on volumetric rendering weights that helps in the learning of accurate occupancy fields, along with a normal loss that helps in global smoothing of the occupancy fields. We evaluate our approach on the DTU dataset and demonstrate state-of-the-art performance in terms of reconstruction accuracy, especially in challenging scenarios with sparse input data and occluded regions. We furthermore demonstrate the generalization capabilities of our method by showing qualitative results on the Blended MVS dataset without any retraining.
- Abstract(参考訳): 本稿では,ニューラルラジアンス場(NeRF)の表現力を活用し,その特徴を高速に伝達して正確な占有場を学習することで,スパース3次元再構成手法を提案する。
スパース入力からの既存の3次元再構成手法は、複雑な幾何学的詳細を捉えるのに依然として苦労しており、隠蔽領域を扱う際の限界に悩まされている。
一方、NeRFは複雑なシーンをモデル化する上で優れているが、意味のある幾何学を抽出する手段を提供していない。
提案手法は,NeRF特徴量に符号化された情報を伝達して,正確な占有場表現を導出することにより,両世界の長所を提供する。
我々は、訓練済みで一般化可能なNeRFネットワークを用いて、詳細なシーンラディアンス情報をキャプチャし、この知識を、一般化可能な暗黙の占有ネットワークのトレーニングに迅速に転送する。
このプロセスは、一般化可能なNeRFでエンコードされたシーン幾何学の知識を活用し、3次元空間のより正確な一般化可能な表現を促進するために、占有場を学習するためにそれを精製するのに役立つ。
伝達学習アプローチは、等級(数日から3.5時間)でトレーニング時間を劇的に短縮し、スクラッチから一般化可能な表面再構成法を訓練する必要がなくなる。
さらに, 精度の高い占有領域の学習を支援するボリュームレンダリングウェイトに対する新たな損失と, 占有領域のグローバルな平滑化を支援する通常の損失を導入する。
我々はDTUデータセットに対する我々のアプローチを評価し、特にスパース入力データと隠蔽領域の挑戦シナリオにおいて、再構築精度の観点から最先端の性能を実証する。
さらに,Blended MVSデータセットに定性的な結果を表示することで,再学習を伴わずに,本手法の一般化能力を実証する。
関連論文リスト
- Optimizing 3D Geometry Reconstruction from Implicit Neural Representations [2.3940819037450987]
暗黙の神経表現は、3D幾何学を学ぶための強力なツールとして登場した。
本稿では,計算コストを削減し,細部を捉える新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T16:36:23Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - ReconFusion: 3D Reconstruction with Diffusion Priors [104.73604630145847]
本稿では,数枚の写真を用いて現実のシーンを再構成するReconFusionを提案する。
提案手法は,合成および多視点データセットに基づいて訓練された新規なビュー合成に先立って拡散を利用する。
本手法は,観測領域の外観を保ちながら,非拘束領域における現実的な幾何学とテクスチャを合成する。
論文 参考訳(メタデータ) (2023-12-05T18:59:58Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Instant Continual Learning of Neural Radiance Fields [78.08008474313809]
ニューラルレイディアンス場(NeRF)は,新規な視点合成と3次元シーン再構成の有効な方法として出現している。
本稿では,リプレイに基づく手法とハイブリッドな明示的シーン表現を併用したNeRFの連続学習フレームワークを提案する。
提案手法は, 連続的な環境下での学習において, 従来手法よりも高い精度で再現性能を向上すると同時に, 桁違いの高速化を図っている。
論文 参考訳(メタデータ) (2023-09-04T21:01:55Z) - Semi-signed neural fitting for surface reconstruction from unoriented
point clouds [53.379712818791894]
より優れた符号付き距離場を再構成するためのSN-Fittingを提案する。
SSNフィッティングは半署名の監督と損失に基づく領域サンプリング戦略で構成されている。
我々は,SSN-Fittingが,異なる設定下で最先端の性能を達成することを示す実験を行う。
論文 参考訳(メタデータ) (2022-06-14T09:40:17Z) - High-Order Residual Network for Light Field Super-Resolution [39.93400777363467]
可視光カメラは通常、異なる視点から情報を取得するために、SAIの空間分解能を犠牲にする。
そこで本稿では,光場から階層的に幾何学的特徴を学習するための新しい高次残差ネットワークを提案する。
提案手法は,挑戦的領域においても高品質な再構成が可能であり,定量化と視覚的評価の両面から,最先端の単一画像やLF再構成よりも優れる。
論文 参考訳(メタデータ) (2020-03-29T18:06:05Z) - Deep Non-Line-of-Sight Reconstruction [18.38481917675749]
本稿では,再構成問題を効率的に解くために,畳み込みフィードフォワードネットワークを用いる。
本研究では,自動エンコーダアーキテクチャを設計し,一貫した画像を直接深度マップ表現にマッピングする。
筆者らのフィードフォワードネットワークは,合成データのみに基づいて訓練されているものの,SPADセンサの計測データに一般化し,モデルに基づく再構成手法と競合する結果が得られることを示した。
論文 参考訳(メタデータ) (2020-01-24T16:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。