論文の概要: SVDC: Consistent Direct Time-of-Flight Video Depth Completion with Frequency Selective Fusion
- arxiv url: http://arxiv.org/abs/2503.01257v1
- Date: Mon, 03 Mar 2025 07:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:30.954933
- Title: SVDC: Consistent Direct Time-of-Flight Video Depth Completion with Frequency Selective Fusion
- Title(参考訳): SVDC:周波数選択核融合による直接飛行時間深度補正
- Authors: Xuan Zhu, Jijun Xiang, Xianqi Wang, Longliang Liu, Yu Wang, Hong Zhang, Fei Guo, Xin Yang,
- Abstract要約: 軽量直接飛行(dToF)センサーはモバイルデバイス上での3Dセンシングに最適である。
本稿では,疎度dToFデータを対応するRGBガイダンスと融合させることで,SVDCと呼ばれる新しい映像深度補完手法を提案する。
本手法では, スパースdToFイメージングによる空間的曖昧性を軽減するために, 多フレーム融合方式を用いる。
- 参考スコア(独自算出の注目度): 8.23422182642083
- License:
- Abstract: Lightweight direct Time-of-Flight (dToF) sensors are ideal for 3D sensing on mobile devices. However, due to the manufacturing constraints of compact devices and the inherent physical principles of imaging, dToF depth maps are sparse and noisy. In this paper, we propose a novel video depth completion method, called SVDC, by fusing the sparse dToF data with the corresponding RGB guidance. Our method employs a multi-frame fusion scheme to mitigate the spatial ambiguity resulting from the sparse dToF imaging. Misalignment between consecutive frames during multi-frame fusion could cause blending between object edges and the background, which results in a loss of detail. To address this, we introduce an adaptive frequency selective fusion (AFSF) module, which automatically selects convolution kernel sizes to fuse multi-frame features. Our AFSF utilizes a channel-spatial enhancement attention (CSEA) module to enhance features and generates an attention map as fusion weights. The AFSF ensures edge detail recovery while suppressing high-frequency noise in smooth regions. To further enhance temporal consistency, We propose a cross-window consistency loss to ensure consistent predictions across different windows, effectively reducing flickering. Our proposed SVDC achieves optimal accuracy and consistency on the TartanAir and Dynamic Replica datasets. Code is available at https://github.com/Lan1eve/SVDC.
- Abstract(参考訳): 軽量直接飛行(dToF)センサーはモバイルデバイス上での3Dセンシングに最適である。
しかし、コンパクトデバイスの製造制約やイメージングの固有の物理原理により、dToF深度マップは狭くノイズが多い。
本稿では,疎度dToFデータを対応するRGBガイダンスと融合させることで,SVDCと呼ばれる新しい映像深度補完手法を提案する。
本手法では, スパースdToFイメージングによる空間的曖昧性を軽減するために, 多フレーム融合方式を用いる。
多フレーム融合における連続するフレーム間のミスアライメントは、オブジェクトエッジと背景とのブレンドを引き起こし、詳細が失われる可能性がある。
そこで本研究では,コンボリューションカーネルサイズを自動的に選択し,マルチフレーム機能を融合する適応周波数選択融合(AFSF)モジュールを提案する。
AFSFは,チャネル空間強調アテンション(CSEA)モジュールを用いて特徴を増強し,融合重みとしてアテンションマップを生成する。
AFSFは、滑らかな領域の高周波ノイズを抑制しながら、エッジディテールの回復を保証する。
時間的整合性をさらに向上するため,異なるウィンドウ間の一貫した予測を確実にするクロスウィンドウ整合性損失を提案し,フリックリングを効果的に低減する。
提案するSVDCは,TartanAirとDynamic Replicaのデータセット上で最適な精度と一貫性を実現する。
コードはhttps://github.com/Lan1eve/SVDCで入手できる。
関連論文リスト
- Frequency-aware Feature Fusion for Dense Image Prediction [99.85757278772262]
本稿では,高密度画像予測のための周波数認識機能融合(FreqFusion)を提案する。
FreqFusionは、Adaptive Low-Pass Filter (ALPF) ジェネレータ、オフセットジェネレータ、Adaptive High-Pass Filter (AHPF) ジェネレータを統合する。
包括的可視化と定量的分析は、FreqFusionが機能一貫性を効果的に改善し、オブジェクト境界を鋭くすることを示している。
論文 参考訳(メタデータ) (2024-08-23T07:30:34Z) - FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving [63.96049803915402]
多様なセンサーのモダリティからのデータの統合は、自律運転のシナリオにおいて一般的な方法論となっている。
効率的な点雲変換器の最近の進歩は、スパースフォーマットにおける情報統合の有効性を裏付けている。
本稿では,Transformer を用いた sparse cameraLiDAR 融合における設計選択を包括的に検討する。
論文 参考訳(メタデータ) (2024-08-13T11:46:32Z) - Deformable Feature Alignment and Refinement for Moving Infrared Dim-small Target Detection [17.765101100010224]
本稿では,変形可能なコンボリューションに基づく変形可能な特徴アライメント・リファインメント(DFAR)手法を提案する。
提案手法はDAUBとIRDSTを含む2つのベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T00:42:25Z) - SSDiff: Spatial-spectral Integrated Diffusion Model for Remote Sensing Pansharpening [14.293042131263924]
本稿では,空間スペクトル統合拡散モデルを導入し,リモートセンシングパンシャーピングタスクであるSSDiffについて述べる。
SSDiffは、パンシャルペン過程を部分空間分解の観点から、空間成分とスペクトル成分の融合過程とみなしている。
論文 参考訳(メタデータ) (2024-04-17T16:30:56Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Consistent Direct Time-of-Flight Video Depth Super-Resolution [9.173767380836852]
飛行時間(dToF)センサーは、次世代のオンデバイス3Dセンシングを約束している。
低分解能dToFイメージングによる空間的曖昧性を緩和する最初の多フレーム融合方式を提案する。
動的オブジェクトと現実的なdToFシミュレータを備えた,最初の合成RGB-dToFビデオデータセットであるDyDToFを紹介する。
論文 参考訳(メタデータ) (2022-11-16T04:16:20Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Temp-Frustum Net: 3D Object Detection with Temporal Fusion [0.0]
3Dオブジェクト検出は、自動運転システムの中核コンポーネントです。
フレームバイフレームの3dオブジェクト検出はノイズ、視野障害、スパーシティに苦しむ。
これらの問題を緩和するための新しい時間融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-25T09:08:14Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。