論文の概要: Depth-Consistent 3D Gaussian Splatting via Physical Defocus Modeling and Multi-View Geometric Supervision
- arxiv url: http://arxiv.org/abs/2511.10316v1
- Date: Fri, 14 Nov 2025 01:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.811762
- Title: Depth-Consistent 3D Gaussian Splatting via Physical Defocus Modeling and Multi-View Geometric Supervision
- Title(参考訳): 物理デフォーカスモデリングと多視点幾何シミュレーションによる深部連続3次元ガウス散乱
- Authors: Yu Deng, Baozhu Zhao, Junyan Su, Xiaohan Zhang, Qi Liu,
- Abstract要約: 本稿では,フィールド深度監視と多視点整合性監視を統合した新しい計算フレームワークを提案する。
マルチビュー幾何学的制約でデフォーカス物理を統一することにより,最先端のPSNR法よりも0.8dBのPSNRを改良した深度忠実度を実現する。
- 参考スコア(独自算出の注目度): 12.972772139292957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Three-dimensional reconstruction in scenes with extreme depth variations remains challenging due to inconsistent supervisory signals between near-field and far-field regions. Existing methods fail to simultaneously address inaccurate depth estimation in distant areas and structural degradation in close-range regions. This paper proposes a novel computational framework that integrates depth-of-field supervision and multi-view consistency supervision to advance 3D Gaussian Splatting. Our approach comprises two core components: (1) Depth-of-field Supervision employs a scale-recovered monocular depth estimator (e.g., Metric3D) to generate depth priors, leverages defocus convolution to synthesize physically accurate defocused images, and enforces geometric consistency through a novel depth-of-field loss, thereby enhancing depth fidelity in both far-field and near-field regions; (2) Multi-View Consistency Supervision employing LoFTR-based semi-dense feature matching to minimize cross-view geometric errors and enforce depth consistency via least squares optimization of reliable matched points. By unifying defocus physics with multi-view geometric constraints, our method achieves superior depth fidelity, demonstrating a 0.8 dB PSNR improvement over the state-of-the-art method on the Waymo Open Dataset. This framework bridges physical imaging principles and learning-based depth regularization, offering a scalable solution for complex depth stratification in urban environments.
- Abstract(参考訳): 近距離域と遠距離域の非整合的な監視信号により,超深度変化のシーンにおける3次元再構成は依然として困難である。
既存の手法では、遠距離領域における不正確な深さ推定と、近距離領域における構造劣化に同時に対処できない。
本稿では,3次元ガウス散乱の進行に深度監視と多視点整合性監視を統合した新しい計算フレームワークを提案する。
提案手法は,(1)被写界深度推定器(例:Metric3D)を用いて深度を推定し,デフォーカスの畳み込みを利用して物理的に正確なデフォーカス画像の合成を行い,新たな深度補正を行い,遠方界および近方界の両領域における深度忠実度を向上する。
多視点幾何制約でデフォーカス物理を統一することにより、Waymo Open Dataset上での最先端手法よりも0.8dBのPSNRの改善を実証し、優れた深度忠実度を実現する。
このフレームワークは物理画像の原理と学習に基づく深度正規化を橋渡しし、都市環境における複雑な深度階層化のためのスケーラブルなソリューションを提供する。
関連論文リスト
- PFDepth: Heterogeneous Pinhole-Fisheye Joint Depth Estimation via Distortion-aware Gaussian-Splatted Volumetric Fusion [61.6340987158734]
ヘテロジニアス多視点深度推定のための最初のピンホール・フィッシュアイ・フレームワークPFDepthを提案する。
PFDepthは、ピンホールと魚眼カメラの任意の組み合わせを、様々な内在と外生とで処理できる統一アーキテクチャを採用している。
我々は,現在の主流深度ネットワーク上でのKITTI-360およびRealHetデータセットに対して,PFDepthが最先端の性能を示すことを示す。
論文 参考訳(メタデータ) (2025-09-30T09:38:59Z) - Towards High-Precision Depth Sensing via Monocular-Aided iToF and RGB Integration [11.077863605272668]
Indirect Time-of-Flight (iToF) 深度検出の固有の限界に対処する新しいiToF-RGB融合フレームワークを提案する。
提案手法は,まず狭帯域iToF深度マップを広帯域RGB座標系に再計画する。
次に、二重エンコーダ融合ネットワークを用いて、再計画したiToF深度とRGB画像から相補的特徴を共同抽出する。
クロスモーダル構造的キューと奥行き整合性制約を統合することにより, 深度精度の向上, エッジシャープネスの向上, シームレスなFoV拡張を実現する。
論文 参考訳(メタデータ) (2025-08-03T13:48:00Z) - JointSplat: Probabilistic Joint Flow-Depth Optimization for Sparse-View Gaussian Splatting [10.690965024885358]
スパースの観点から3Dシーンを再構築することは、幅広いアプリケーションにおいて長年にわたる課題である。
近年のフィードフォワード3Dガウスのスパースビュー再構成法は, リアルタイムな新規ビュー合成のための効率的な解法である。
光学的流れと深さの相補性を利用する統一的なフレームワークであるJointSplatを提案する。
論文 参考訳(メタデータ) (2025-06-04T12:04:40Z) - DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。
複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文 参考訳(メタデータ) (2024-05-27T08:55:17Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。