論文の概要: ACDNet: Adaptively Combined Dilated Convolution for Monocular Panorama
Depth Estimation
- arxiv url: http://arxiv.org/abs/2112.14440v1
- Date: Wed, 29 Dec 2021 08:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 15:21:42.528158
- Title: ACDNet: Adaptively Combined Dilated Convolution for Monocular Panorama
Depth Estimation
- Title(参考訳): ACDNet: 単眼パノラマ深さ推定のための適応的拡張畳み込み
- Authors: Chuanqing Zhuang, Zhengda Lu, Yiqun Wang, Jun Xiao, Ying Wang
- Abstract要約: 本研究では,単眼パノラマ画像の深度マップを予測するために,適応的に組み合わせた拡張畳み込みに基づくACDNetを提案する。
仮想および実世界の3つのデータセットで深度推定実験を行い,提案したACDNetが現在最先端(SOTA)手法を大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 9.670696363730329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation is a crucial step for 3D reconstruction with panorama images
in recent years. Panorama images maintain the complete spatial information but
introduce distortion with equirectangular projection. In this paper, we propose
an ACDNet based on the adaptively combined dilated convolution to predict the
dense depth map for a monocular panoramic image. Specifically, we combine the
convolution kernels with different dilations to extend the receptive field in
the equirectangular projection. Meanwhile, we introduce an adaptive
channel-wise fusion module to summarize the feature maps and get diverse
attention areas in the receptive field along the channels. Due to the
utilization of channel-wise attention in constructing the adaptive channel-wise
fusion module, the network can capture and leverage the cross-channel
contextual information efficiently. Finally, we conduct depth estimation
experiments on three datasets (both virtual and real-world) and the
experimental results demonstrate that our proposed ACDNet substantially
outperforms the current state-of-the-art (SOTA) methods. Our codes and model
parameters are accessed in https://github.com/zcq15/ACDNet.
- Abstract(参考訳): 近年のパノラマ画像を用いた3次元再構成における深度推定は重要なステップである。
パノラマ画像は完全な空間情報を保持するが、等角射影で歪みをもたらす。
本稿では,単分子パノラマ画像の深度マップを予測するために,適応的に合成された拡張畳み込みに基づくACDNetを提案する。
具体的には、畳み込み核と異なる拡張を組み合わせることで、等角射影の受容体を拡張する。
一方,機能マップを要約し,チャネルに沿った受容野の多様な注意領域を得るための適応型チャネルワイズ融合モジュールを提案する。
適応型チャネル・アズ・フュージョンモジュール構築におけるチャネル・アズ・アテンションの活用により、ネットワークはチャネル間のコンテクスト情報を効率的に捕捉し活用することができる。
最後に,3つのデータセット(仮想および実世界の双方)の深度推定実験を行い,提案したACDNetが現在のSOTA法を大幅に上回っていることを示す。
私たちのコードとモデルパラメータはhttps://github.com/zcq15/ACDNetでアクセスされます。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - ${S}^{2}$Net: Accurate Panorama Depth Estimation on Spherical Surface [4.649656275858966]
単球面上の単分子パノラマ深度推定のためのエンドツーエンドのディープネットワークを提案する。
具体的には、等方形画像から抽出した特徴写像を一様分散格子でサンプリングした単位球面に投影する。
本研究では,機能マップをスキップ接続から解き放ち,グローバルコンテキストの獲得能力を高めるために,グローバルなクロスアテンションベースの融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-14T07:39:15Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Neural Contourlet Network for Monocular 360 Depth Estimation [37.82642960470551]
我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。
本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。
エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
論文 参考訳(メタデータ) (2022-08-03T02:25:55Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。