論文の概要: Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2512.18237v1
- Date: Sat, 20 Dec 2025 06:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.246125
- Title: Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction
- Title(参考訳): 大規模モノクル3次元再構成のための深度, ポース, 局所放射場の共同学習
- Authors: Shahram Najam Syed, Yitian Hu, Yuchao Yao,
- Abstract要約: 大規模シーンにおいて、奥行き、ポーズ、放射能を分離して解決する場合に、モノクルビデオからの光現実的3次元再構成が崩壊する。
3つの要因をすべて結合し、各障害ケースを実証的に克服する、共同学習フレームワークを導入します。
その結果, 1台のRGBカメラから, 計量スケール, ドリフトフリー3次元再構成, 高忠実度ノベルビュー合成が実現可能であることがわかった。
- 参考スコア(独自算出の注目度): 0.21847754147782883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Photorealistic 3-D reconstruction from monocular video collapses in large-scale scenes when depth, pose, and radiance are solved in isolation: scale-ambiguous depth yields ghost geometry, long-horizon pose drift corrupts alignment, and a single global NeRF cannot model hundreds of metres of content. We introduce a joint learning framework that couples all three factors and demonstrably overcomes each failure case. Our system begins with a Vision-Transformer (ViT) depth network trained with metric-scale supervision, giving globally consistent depths despite wide field-of-view variations. A multi-scale feature bundle-adjustment (BA) layer refines camera poses directly in feature space--leveraging learned pyramidal descriptors instead of brittle keypoints--to suppress drift on unconstrained trajectories. For scene representation, we deploy an incremental local-radiance-field hierarchy: new hash-grid NeRFs are allocated and frozen on-the-fly when view overlap falls below a threshold, enabling city-block-scale coverage on a single GPU. Evaluated on the Tanks and Temples benchmark, our method reduces Absolute Trajectory Error to 0.001-0.021 m across eight indoor-outdoor sequences--up to 18x lower than BARF and 2x lower than NoPe-NeRF--while maintaining sub-pixel Relative Pose Error. These results demonstrate that metric-scale, drift-free 3-D reconstruction and high-fidelity novel-view synthesis are achievable from a single uncalibrated RGB camera.
- Abstract(参考訳): スケール・アンビグラス・ディープはゴースト・ジオメトリーを、ロングホライゾンはドリフト・ドリフト・アライメントを、グローバルなNeRFは数百mのコンテンツをモデル化できない。
3つの要因をすべて結合し、各障害ケースを実証的に克服する、共同学習フレームワークを導入します。
我々のシステムは、視力変換器(ViT)深度ネットワークから始まり、視野の広さに拘わらず、世界的に一貫した深度を与える。
マルチスケールな機能バンドル調整(BA)層は、カメラを直接特徴空間に配置する - 不安定なキーポイントではなく、学習したピラミッド記述子を平均化することで、制約のない軌道上のドリフトを抑制する。
新しいハッシュグリッド型NeRFは、ビューオーバーラップがしきい値以下になると、オンザフライで配置され、単一のGPU上で都市ブロックスケールのカバレッジを可能にする。
タンク・アンド・テンプルのベンチマークで評価したところ, 絶対軌道誤差は, BARFより18倍, NoPe-NeRFより2倍, サブピクセルの相対ポースエラーは継続して0.001-0.021mに減少することがわかった。
これらの結果から, 1台のRGBカメラから, 計量スケール, ドリフトフリー3次元再構成, 高忠実度ノベルビュー合成が可能であることが示唆された。
関連論文リスト
- Tile and Slide : A New Framework for Scaling NeRF from Local to Global 3D Earth Observation [45.22460694311405]
Snake-NeRFは大きなシーンにスケールするフレームワークだ。
重なり合うことなく3次元タイルを持つNeRFに関心領域を分割することでこれを実現できる。
そこで本研究では, タイル縁に沿った3次元再構成誤差を防止するために, 新たな2時間2ドル3次元タイル進行戦略とセグメンテーションサンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-07-02T11:59:36Z) - UniK3D: Universal Camera Monocular 3D Estimation [62.06785782635153]
カメラをモデル化可能なモノクル3D推定法として,UniK3Dを提案する。
本手法では, 球面3次元表現を導入し, カメラとシーンの形状をよりよく切り離すことができる。
13の多様なデータセットに対する包括的なゼロショット評価は、3D、ディープ、カメラメトリクスにわたるUniK3Dの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-20T17:49:23Z) - SiLVR: Scalable Lidar-Visual Radiance Field Reconstruction with Uncertainty Quantification [0.6445605125467574]
本稿では,ライダーと視覚データを融合したNeRFを用いた大規模再構成システムを提案する。
我々のシステムはライダーを組み込むために最先端のNeRF表現を採用する。
ライダーデータを追加すると、深さと表面の正規値に強い幾何学的制約が加わる。
論文 参考訳(メタデータ) (2025-02-04T19:00:49Z) - SCADE: NeRFs from Space Carving with Ambiguity-Aware Depth Estimates [16.344734292989504]
SCADEは、スパースで制約のない入力ビューにおけるNeRF再構成品質を改善する新しい技術である。
本研究では,各視点に対して,深度推定の連続的マルチモーダル分布を予測する新しい手法を提案する。
実験により,本手法はスパースビューから高忠実度ノベルビューの合成を可能にすることが示された。
論文 参考訳(メタデータ) (2023-03-23T18:00:07Z) - SPARF: Neural Radiance Fields from Sparse and Noisy Poses [58.528358231885846]
SPARF(Sparse Pose Adjusting Radiance Field)を導入し,新規な視点合成の課題に対処する。
提案手法は、NeRFを共同学習し、カメラのポーズを洗練するために、多視点幾何学的制約を利用する。
論文 参考訳(メタデータ) (2022-11-21T18:57:47Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z) - Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields [43.69542675078766]
我々は,非線形シーンパラメータ化,オンライン蒸留,新しい歪みベースの正規化器を用いて,非境界シーンの課題を克服するmip-NeRFの拡張を提案する。
このモデルでは,mip-NeRF 360 を用いて平均二乗誤差を mip-NeRF と比較して 54% 削減し,リアルに合成されたビューと詳細な深度マップを作成できる。
論文 参考訳(メタデータ) (2021-11-23T18:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。