論文の概要: HRDFuse: Monocular 360{\deg}Depth Estimation by Collaboratively Learning
Holistic-with-Regional Depth Distributions
- arxiv url: http://arxiv.org/abs/2303.11616v2
- Date: Wed, 22 Mar 2023 04:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 11:03:05.709828
- Title: HRDFuse: Monocular 360{\deg}Depth Estimation by Collaboratively Learning
Holistic-with-Regional Depth Distributions
- Title(参考訳): hrdfuse:局所的深さ分布の協調学習による単眼的360{\deg}深度推定
- Authors: Hao Ai, Zidong cao, Yan-pei Cao, Ying Shan, Lin Wang
- Abstract要約: 我々は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーのポテンシャルを微妙に組み合わせた新しいフレームワーク、textbfHRDFuseを提案する。
本手法は, SOTA法よりもスムーズで精度の高い結果が得られる一方で,スムーズで正確な深度を予測できる。
- 参考スコア(独自算出の注目度): 16.065889899404848
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Depth estimation from a monocular 360{\deg} image is a burgeoning problem
owing to its holistic sensing of a scene. Recently, some methods, \eg,
OmniFusion, have applied the tangent projection (TP) to represent a
360{\deg}image and predicted depth values via patch-wise regressions, which are
merged to get a depth map with equirectangular projection (ERP) format.
However, these methods suffer from 1) non-trivial process of merging plenty of
patches; 2) capturing less holistic-with-regional contextual information by
directly regressing the depth value of each pixel. In this paper, we propose a
novel framework, \textbf{HRDFuse}, that subtly combines the potential of
convolutional neural networks (CNNs) and transformers by collaboratively
learning the \textit{holistic} contextual information from the ERP and the
\textit{regional} structural information from the TP. Firstly, we propose a
spatial feature alignment (\textbf{SFA}) module that learns feature
similarities between the TP and ERP to aggregate the TP features into a
complete ERP feature map in a pixel-wise manner. Secondly, we propose a
collaborative depth distribution classification (\textbf{CDDC}) module that
learns the \textbf{holistic-with-regional} histograms capturing the ERP and TP
depth distributions. As such, the final depth values can be predicted as a
linear combination of histogram bin centers. Lastly, we adaptively combine the
depth predictions from ERP and TP to obtain the final depth map. Extensive
experiments show that our method predicts\textbf{ more smooth and accurate
depth} results while achieving \textbf{favorably better} results than the SOTA
methods.
- Abstract(参考訳): 単眼の360{\deg}画像からの深度推定は、シーンの全体像を感知するため、急激な問題である。
近年、eg, OmniFusion といったいくつかの手法が、360{\deg}image を表すために接射影 (TP) を適用し、パッチワイド回帰(英語版)を通して深度を予測し、等角射影 (ERP) フォーマットで深度マップを得る。
しかし これらの手法は
1) 多数のパッチをマージする非自明なプロセス
2)各画素の深度値を直接回帰することにより,局所的・地域的コンテキスト情報が少なくなる。
本稿では, 畳み込みニューラルネットワーク (CNN) とトランスフォーマーのポテンシャルを, ERP から \textit{holistic} コンテキスト情報と TP から \textit{localal} 構造情報を協調的に学習することによって, 微妙に組み合わせた新しいフレームワークである \textbf{HRDFuse} を提案する。
まず,空間的特徴アライメント(\textbf{SFA})モジュールを提案する。このモジュールは,TPとERPの特徴類似性を学習して,TP特徴をピクセル単位で完全なERP特徴マップに集約する。
次に,ERP と TP の深度分布を抽出した <textbf{holistic-with- Regional} ヒストグラムを学習する,協調的な深度分布分類 (\textbf{CDDC}) モジュールを提案する。
したがって、最終的な深さ値はヒストグラムのビン中心の線形結合として予測できる。
最後に,ERPとTPの深度予測を適応的に組み合わせて最終深度マップを得る。
広範な実験により,本手法はsoma法よりも,より滑らかで正確な深さを予測でき,かつ,<textbf{favorably better} 結果が得られた。
関連論文リスト
- VoxelKP: A Voxel-based Network Architecture for Human Keypoint
Estimation in LiDAR Data [53.638818890966036]
textitVoxelKPは、LiDARデータにおける人間のキーポイント推定に適した、完全にスパースなネットワークアーキテクチャである。
本研究では,人間の各インスタンス内のキーポイント間の空間的相関を学習するために,スパースボックスアテンションを導入する。
鳥の視線を符号化する2次元格子に3次元ボクセルを投影する際に, 絶対的な3次元座標を利用するために空間符号化を組み込んだ。
論文 参考訳(メタデータ) (2023-12-11T23:50:14Z) - Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation [34.786268652516355]
教師なしドメイン適応(UDA)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実のターゲットデータに転送することを可能にする。
深度推定を明示的に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメンテーションと深度学習を促進するための奥行き認識フレームワークを提案する。
特に、このフレームワークには、DCF(Depth-guided Contextual Filter)フォーンデータ拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。
論文 参考訳(メタデータ) (2023-11-21T15:39:21Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Non-parametric Depth Distribution Modelling based Depth Inference for
Multi-view Stereo [43.415242967722804]
最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度の画像を効率的に活用する可能性を解き放った。
一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。
本研究では,非パラメトリック深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。
論文 参考訳(メタデータ) (2022-05-08T05:13:04Z) - P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [133.76192155312182]
本研究では,コプラナー画素からの情報を選択的に活用して予測深度を改善する手法を提案する。
本手法の広範な評価により, 教師付き単分子深度推定法において, 新たな手法の確立が期待できる。
論文 参考訳(メタデータ) (2022-04-05T10:03:52Z) - Monocular Depth Distribution Alignment with Low Computation [15.05244258071472]
我々は、軽量ネットワークと重軽量ネットワークの精度コントラストの大部分をモデル化する。
DANetは2つの領域ごとに深度の特徴の違いを知覚することにより、合理的なシーン構造を予測する傾向にある。
DANetは、深さ分布形状とシーン深度範囲のアライメントにより、分布のドリフトを著しく軽減し、従来の重み付け手法と同等の性能を達成する。
論文 参考訳(メタデータ) (2022-03-09T06:18:26Z) - A Confidence-based Iterative Solver of Depths and Surface Normals for
Deep Multi-view Stereo [41.527018997251744]
本研究では,深度,表面正規度,視野ごとの信頼度を共同で予測する深層多視点ステレオ(MVS)システムを提案する。
我々のアプローチの鍵は、ビューごとの深度マップと正規写像に対して反復的に解決する新しい解法である。
提案手法は,従来型および深層学習に基づくMVSパイプラインの深部品質を継続的に向上する。
論文 参考訳(メタデータ) (2022-01-19T14:08:45Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。