論文の概要: PFDepth: Heterogeneous Pinhole-Fisheye Joint Depth Estimation via Distortion-aware Gaussian-Splatted Volumetric Fusion
- arxiv url: http://arxiv.org/abs/2509.26008v1
- Date: Tue, 30 Sep 2025 09:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.496943
- Title: PFDepth: Heterogeneous Pinhole-Fisheye Joint Depth Estimation via Distortion-aware Gaussian-Splatted Volumetric Fusion
- Title(参考訳): PFDepth: Unterogeneous Pinhole-Fisheye Joint Depth Estimation by Distortion-aware Gaussian-Splatted Volumetric Fusion (特集:平成11年秋季大会)
- Authors: Zhiwei Zhang, Ruikai Xu, Weijian Zhang, Zhizhong Zhang, Xin Tan, Jingyu Gong, Yuan Xie, Lizhuang Ma,
- Abstract要約: ヘテロジニアス多視点深度推定のための最初のピンホール・フィッシュアイ・フレームワークPFDepthを提案する。
PFDepthは、ピンホールと魚眼カメラの任意の組み合わせを、様々な内在と外生とで処理できる統一アーキテクチャを採用している。
我々は,現在の主流深度ネットワーク上でのKITTI-360およびRealHetデータセットに対して,PFDepthが最先端の性能を示すことを示す。
- 参考スコア(独自算出の注目度): 61.6340987158734
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present the first pinhole-fisheye framework for heterogeneous multi-view depth estimation, PFDepth. Our key insight is to exploit the complementary characteristics of pinhole and fisheye imagery (undistorted vs. distorted, small vs. large FOV, far vs. near field) for joint optimization. PFDepth employs a unified architecture capable of processing arbitrary combinations of pinhole and fisheye cameras with varied intrinsics and extrinsics. Within PFDepth, we first explicitly lift 2D features from each heterogeneous view into a canonical 3D volumetric space. Then, a core module termed Heterogeneous Spatial Fusion is designed to process and fuse distortion-aware volumetric features across overlapping and non-overlapping regions. Additionally, we subtly reformulate the conventional voxel fusion into a novel 3D Gaussian representation, in which learnable latent Gaussian spheres dynamically adapt to local image textures for finer 3D aggregation. Finally, fused volume features are rendered into multi-view depth maps. Through extensive experiments, we demonstrate that PFDepth sets a state-of-the-art performance on KITTI-360 and RealHet datasets over current mainstream depth networks. To the best of our knowledge, this is the first systematic study of heterogeneous pinhole-fisheye depth estimation, offering both technical novelty and valuable empirical insights.
- Abstract(参考訳): 本稿では,異種多視点深度推定のための最初のピンホール・フィッシュアイ・フレームワークPFDepthを提案する。
我々の重要な洞察は、ピンホール画像と魚眼画像の相補的特徴(歪んだ場合と歪んだ場合と、小さい場合と近くの場合)を共同最適化に活用することである。
PFDepthは、ピンホールと魚眼カメラの任意の組み合わせを、様々な内在と外在とで処理できる統一アーキテクチャを採用している。
PFDepth内では、まず各異種ビューから正準3次元体積空間に2D特徴を明示的に持ち上げる。
そして、重なり合う領域と非重なり合う領域にまたがる歪みを考慮した体積特徴を処理し、融合させる「異種空間融合」と呼ばれるコアモジュールを設計する。
さらに,従来のボクセル融合を新しい3次元ガウス表現に微調整し,学習可能な潜在ガウス球を局所的な画像テクスチャに動的に適応させてより微細な3次元アグリゲーションを実現する。
最後に、融合体積特徴を多視点深度マップに描画する。
大規模な実験を通じて、PFDepthは現在の主流深度ネットワーク上でのKITTI-360およびRealHetデータセットに最先端のパフォーマンスを設定できることを実証した。
我々の知る限りでは、これは異質なピンホール魚眼深度推定に関する最初の体系的な研究であり、技術的新奇性と貴重な経験的洞察を提供する。
関連論文リスト
- DepthFusion: Depth-Aware Hybrid Feature Fusion for LiDAR-Camera 3D Object Detection [32.07206206508925]
最先端のLiDARカメラ3Dオブジェクト検出器は通常、特徴融合に焦点を当てている。
深度が統計的解析や可視化によって異なるため、様々なモーダルが異なる役割を担っていることを最初に観察する。
本稿では,ポイントクラウドとRGB画像の重み付けをガイドするDepth-Aware Hybrid Feature Fusion戦略を提案する。
論文 参考訳(メタデータ) (2025-05-12T09:53:00Z) - Pillar-Voxel Fusion Network for 3D Object Detection in Airborne Hyperspectral Point Clouds [35.24778377226701]
航空機搭載HPCのための3次元物体検出ネットワークPiV-A HPCを提案する。
我々はまず,HPCからスペクトルおよび垂直構造特徴を捕捉し,スペクトル歪みを克服するピラーボクセル二重分岐エンコーダを開発した。
2つのブランチ間の情報相互作用を強化するために,マルチレベル特徴融合機構が考案された。
論文 参考訳(メタデータ) (2025-04-13T10:13:48Z) - MCPDepth: Omnidirectional Depth Estimation via Stereo Matching from Multi-Cylindrical Panoramas [49.891712558113845]
マルチシリンダパノラマ深さ推定(MCPDepth)を導入する。
MCPDepthは、全方位深度推定を強化するために設計された2段階のフレームワークである。
本手法は,屋外データセットのDeep360では平均絶対誤差(MAE)が18.8%,実データセットの3D60では19.9%向上する。
論文 参考訳(メタデータ) (2024-08-03T03:35:37Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - DeepRelativeFusion: Dense Monocular SLAM using Single-Image Relative
Depth Prediction [4.9188958016378495]
本稿では,一様一貫した3次元構造を復元できる,ディープフュージョンと呼ばれる高密度単分子SLAMシステムを提案する。
視覚的SLAMを用いて、カメラのポーズと奥行きの半深度マップを確実に復元し、それから相対深度予測を用いて半深度マップを密度化し、ポーズグラフを精査する。
我々のシステムは、最先端の高密度SLAMシステムよりも、大規模なマージンによる高密度再構成精度で定量的に性能を向上する。
論文 参考訳(メタデータ) (2020-06-07T05:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。