論文の概要: DCDepth: Progressive Monocular Depth Estimation in Discrete Cosine Domain
- arxiv url: http://arxiv.org/abs/2410.14980v2
- Date: Tue, 22 Oct 2024 14:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:24:56.831100
- Title: DCDepth: Progressive Monocular Depth Estimation in Discrete Cosine Domain
- Title(参考訳): DCDepth:離散コサイン領域における進行単分子深さ推定
- Authors: Kun Wang, Zhiqiang Yan, Junkai Fan, Wanlu Zhu, Xiang Li, Jun Li, Jian Yang,
- Abstract要約: DCDepthは長期の単眼深度推定のための新しいフレームワークである。
離散コサイン領域に変換した後、深さパッチの周波数係数を推定する。
我々は,NYU-Depth-V2,TOFDC,KITTIデータセットに関する総合実験を行い,DCDepthの最先端性能を実証した。
- 参考スコア(独自算出の注目度): 20.55626048513748
- License:
- Abstract: In this paper, we introduce DCDepth, a novel framework for the long-standing monocular depth estimation task. Moving beyond conventional pixel-wise depth estimation in the spatial domain, our approach estimates the frequency coefficients of depth patches after transforming them into the discrete cosine domain. This unique formulation allows for the modeling of local depth correlations within each patch. Crucially, the frequency transformation segregates the depth information into various frequency components, with low-frequency components encapsulating the core scene structure and high-frequency components detailing the finer aspects. This decomposition forms the basis of our progressive strategy, which begins with the prediction of low-frequency components to establish a global scene context, followed by successive refinement of local details through the prediction of higher-frequency components. We conduct comprehensive experiments on NYU-Depth-V2, TOFDC, and KITTI datasets, and demonstrate the state-of-the-art performance of DCDepth. Code is available at https://github.com/w2kun/DCDepth.
- Abstract(参考訳): 本稿では,長期の単眼深度推定のための新しいフレームワークであるDCDepthを紹介する。
空間領域における従来の画素単位の深度推定を超越して、離散コサイン領域への変換後の深度パッチの周波数係数を推定する。
このユニークな定式化は、各パッチ内の局所的な深さ相関のモデリングを可能にする。
重要なことに、周波数変換は、コアシーン構造をカプセル化した低周波成分と、より微細な側面を詳述した高周波成分とで、深さ情報を様々な周波数成分に分離する。
この分解は,まず低周波成分の予測から始まり,高周波成分の予測を通じて局所的な詳細を連続的に改善する。
我々は,NYU-Depth-V2,TOFDC,KITTIデータセットに関する総合実験を行い,DCDepthの最先端性能を実証した。
コードはhttps://github.com/w2kun/DCDepth.comで入手できる。
関連論文リスト
- D-PAD: Deep-Shallow Multi-Frequency Patterns Disentangling for Time Series Forecasting [7.447606231770597]
時系列予測のためのディープシャロー多周波パターンであるD-PADを提案する。
D-PADは最先端のパフォーマンスを達成し、それぞれMSEとMAEで平均9.48%と7.15%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-03-26T15:52:36Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Neural Kernel Surface Reconstruction [80.51581494300423]
本稿では,大規模でスパースでノイズの多い点雲から3次元暗示面を再構成する新しい手法を提案する。
我々のアプローチは、最近導入されたNeural Kernel Fields表現に基づいている。
論文 参考訳(メタデータ) (2023-05-31T06:25:18Z) - Fast Monocular Scene Reconstruction with Global-Sparse Local-Dense Grids [84.90863397388776]
本稿では,スパルス・ボクセル・ブロック・グリッドにおける署名付き距離関数(SDF)を直接使用して,距離のない高速かつ正確なシーン再構成を実現することを提案する。
我々の世界規模で疎密で局所的なデータ構造は、表面の空間的空間性を利用して、キャッシュフレンドリーなクエリを可能にし、マルチモーダルデータへの直接拡張を可能にします。
実験により、我々のアプローチはトレーニングでは10倍、レンダリングでは100倍高速であり、最先端のニューラル暗黙法に匹敵する精度を実現していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T16:50:19Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Pyramid Frequency Network with Spatial Attention Residual Refinement
Module for Monocular Depth Estimation [4.397981844057195]
深度推定へのディープラーニングアプローチは急速に進歩しており、既存の手法よりも優れたパフォーマンスを提供している。
本研究では,既存の深層学習手法の弱弱さに対処するため,空間的注意残差補正モジュールを用いたピラミッド周波数ネットワークを提案する。
PFNは、Make3D、KITTI depth、NYUv2データセットの屋内および屋外の両方のシーンにおける最先端の手法よりも、より良い視覚的精度を実現する。
論文 参考訳(メタデータ) (2022-04-05T17:48:26Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - DynOcc: Learning Single-View Depth from Dynamic Occlusion Cues [37.837552043766166]
In-the-wild シーンからなる第1の深度データセット DynOcc を導入する。
提案手法は,これらのダイナミックシーンの手がかりを利用して,選択したビデオフレームのポイント間の深さ関係を推定する。
DynOccデータセットには、91Kフレームのさまざまなビデオセットから22Mの深さペアが含まれています。
論文 参考訳(メタデータ) (2021-03-30T22:17:36Z) - DDR-Net: Learning Multi-Stage Multi-View Stereo With Dynamic Depth Range [2.081393321765571]
深度範囲の仮説を動的に決定するための動的深さ範囲ネットワーク(DDR-Net)を提案する。
DDR-Netでは、まず、深度範囲全体にわたる画像の最も粗い解像度で初期深度マップを構築します。
学習した動的深度範囲を利用して、洗練された深度マップを生成する新しい損失戦略を開発します。
論文 参考訳(メタデータ) (2021-03-26T05:52:38Z) - Guiding Monocular Depth Estimation Using Depth-Attention Volume [38.92495189498365]
本研究では,特に屋内環境に広く分布する平面構造を優先するための奥行き推定法を提案する。
2つのポピュラーな屋内データセットであるNYU-Depth-v2とScanNetの実験により,本手法が最先端の深度推定結果を実現することを示す。
論文 参考訳(メタデータ) (2020-04-06T15:45:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。