論文の概要: NeVStereo: A NeRF-Driven NVS-Stereo Architecture for High-Fidelity 3D Tasks
- arxiv url: http://arxiv.org/abs/2602.05423v1
- Date: Thu, 05 Feb 2026 08:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.832849
- Title: NeVStereo: A NeRF-Driven NVS-Stereo Architecture for High-Fidelity 3D Tasks
- Title(参考訳): NeVStereo: 高品質3DタスクのためのNeRF駆動型NVS-Stereoアーキテクチャ
- Authors: Pengcheng Chen, Yue Hu, Wenhao Li, Nicole M Gunderson, Andrew Feng, Zhenglong Sun, Peter Beerel, Eric J Seibel,
- Abstract要約: カメラポーズ,多視点深度,新しいビュー合成,RGBのみの入力による表面再構成を共同で実現することを目的とした,NeVStereoというNeRF駆動型NVSステレオアーキテクチャを提案する。
NeVStereoは、最大36%の深度エラー、10.4%の改善されたポーズ精度、4.5%のNVS忠実度、最先端のメッシュ品質を備えた、一貫して強力なゼロショットパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 14.861893846625193
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In modern dense 3D reconstruction, feed-forward systems (e.g., VGGT, pi3) focus on end-to-end matching and geometry prediction but do not explicitly output the novel view synthesis (NVS). Neural rendering-based approaches offer high-fidelity NVS and detailed geometry from posed images, yet they typically assume fixed camera poses and can be sensitive to pose errors. As a result, it remains non-trivial to obtain a single framework that can offer accurate poses, reliable depth, high-quality rendering, and accurate 3D surfaces from casually captured views. We present NeVStereo, a NeRF-driven NVS-stereo architecture that aims to jointly deliver camera poses, multi-view depth, novel view synthesis, and surface reconstruction from multi-view RGB-only inputs. NeVStereo combines NeRF-based NVS for stereo-friendly renderings, confidence-guided multi-view depth estimation, NeRF-coupled bundle adjustment for pose refinement, and an iterative refinement stage that updates both depth and the radiance field to improve geometric consistency. This design mitigated the common NeRF-based issues such as surface stacking, artifacts, and pose-depth coupling. Across indoor, outdoor, tabletop, and aerial benchmarks, our experiments indicate that NeVStereo achieves consistently strong zero-shot performance, with up to 36% lower depth error, 10.4% improved pose accuracy, 4.5% higher NVS fidelity, and state-of-the-art mesh quality (F1 91.93%, Chamfer 4.35 mm) compared to existing prestigious methods.
- Abstract(参考訳): 現代の高密度3次元再構成では、フィードフォワードシステム(例えば、VGGT, pi3)はエンドツーエンドのマッチングと幾何学的予測に重点を置いているが、新しいビュー合成(NVS)を明示的に出力していない。
ニューラルレンダリングベースのアプローチは、ポーズ画像から高忠実なNVSと詳細な幾何学を提供するが、通常は固定されたカメラのポーズを仮定し、エラーのポーズに敏感である。
結果として、カジュアルにキャプチャーされたビューから、正確なポーズ、信頼性の高い深さ、高品質なレンダリング、正確な3D表面を提供する単一のフレームワークを得るのは簡単ではない。
我々は、NeVStereoというNeRF駆動のNVSステレオアーキテクチャを提案し、カメラポーズ、マルチビュー深度、新しいビュー合成、マルチビューRGBのみの入力による表面再構成を共同で提供する。
NeVStereoは、NeRFベースのNVSをステレオ・フレンドリーなレンダリング、信頼誘導多視点深度推定、ポーズ改善のためのNeRF結合バンドル調整、および幾何整合性を改善するために深さと放射場の両方を更新する反復改善段階を組み合わせた。
この設計は、表面積み重ね、アーティファクト、ポーズと深さの結合といった、NeRFベースの一般的な問題を緩和した。
室内、屋外、テーブルトップ、および空中のベンチマークにおいて、NeVStereoは、既存の有名な手法と比較して、常に強いゼロショット性能を実現し、最大で36%の深さ誤差、10.4%のポーズ精度、4.5%のNVS忠実度、そして最先端メッシュの品質(F1 91.93%、Chamfer 4.35 mm)が向上した。
関連論文リスト
- FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - NeRSP: Neural 3D Reconstruction for Reflective Objects with Sparse Polarized Images [62.752710734332894]
NeRSPはスパース偏光画像を用いた反射面のニューラル3次元再構成技術である。
偏光画像形成モデルと多視点方位整合性から測光的および幾何学的手がかりを導出する。
我々は6つのビューのみを入力として、最先端の表面再構成結果を達成する。
論文 参考訳(メタデータ) (2024-06-11T09:53:18Z) - NoPose-NeuS: Jointly Optimizing Camera Poses with Neural Implicit
Surfaces for Multi-view Reconstruction [0.0]
NoPose-NeuSは、NeuSを拡張して、幾何学とカラーネットワークでカメラポーズを協調的に最適化する、ニューラルネットワークによる暗黙の表面再構成手法である。
提案手法は, 比較的正確なカメラポーズを推定できるが, 表面改質品質は0.89で, チャムファー距離は0.89である。
論文 参考訳(メタデータ) (2023-12-23T12:18:22Z) - PlaNeRF: SVD Unsupervised 3D Plane Regularization for NeRF Large-Scale
Scene Reconstruction [2.2369578015657954]
ニューラル・ラジアンス・フィールド(NeRF)は2次元画像から3次元シーンを再構成し、新しいビュー・シンセサイザー(NVS)のためのカメラポーズを可能にする
NeRFはオーバーフィットからトレーニングの視点に苦しむことが多く、ジオメトリーの再構築は不十分である。
本稿では,RGB画像とセマンティックマップのみを用いて,NeRFの3次元構造を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T13:26:46Z) - ConsistentNeRF: Enhancing Neural Radiance Fields with 3D Consistency for
Sparse View Synthesis [99.06490355990354]
本研究では,深度情報を利用して画素間のマルチビューとシングルビューの3D整合性を調整する手法であるConsistentNeRFを提案する。
提案手法は,PSNRが94%,SSIMが31%,LPIPSが31%,疎視条件下でのモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-18T15:18:01Z) - D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual
Odometry [57.5549733585324]
D3VOは、深度、ポーズ、不確実性推定という3つのレベルでディープネットワークを利用する、単眼の視覚計測のための新しいフレームワークである。
まず,ステレオビデオを用いた自己監督型単眼深度推定ネットワークを提案する。
入力画像上の画素の光度不確かさをモデル化し、深度推定精度を向上させる。
論文 参考訳(メタデータ) (2020-03-02T17:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。