論文の概要: Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion
Network for Depth Completion
- arxiv url: http://arxiv.org/abs/2401.07439v1
- Date: Mon, 15 Jan 2024 02:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:23:36.627102
- Title: Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion
Network for Depth Completion
- Title(参考訳): 奥行き完了のためのマスク適応ゲーテッド畳み込みと双方向プログレッシブフュージョンネットワーク
- Authors: Tingxuan Huang and Jiacheng Miao and Shizhuo Deng and Tong and Dongyue
Chen
- Abstract要約: エンコーダ・デコーダ構造に基づく深度補完のための新しいモデルを提案する。
本モデルでは,マスク適応型Gated Convolutionアーキテクチャと双方向プログレッシブフュージョンモジュールの2つの重要なコンポーネントを紹介する。
深度マップの完成と既存手法の精度と信頼性に優れる性能を実現した。
- 参考スコア(独自算出の注目度): 3.8558637038709622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth completion is a critical task for handling depth images with missing
pixels, which can negatively impact further applications. Recent approaches
have utilized Convolutional Neural Networks (CNNs) to reconstruct depth images
with the assistance of color images. However, vanilla convolution has
non-negligible drawbacks in handling missing pixels. To solve this problem, we
propose a new model for depth completion based on an encoder-decoder structure.
Our model introduces two key components: the Mask-adaptive Gated Convolution
(MagaConv) architecture and the Bi-directional Progressive Fusion (BP-Fusion)
module. The MagaConv architecture is designed to acquire precise depth features
by modulating convolution operations with iteratively updated masks, while the
BP-Fusion module progressively integrates depth and color features, utilizing
consecutive bi-directional fusion structures in a global perspective. Extensive
experiments on popular benchmarks, including NYU-Depth V2, DIML, and SUN RGB-D,
demonstrate the superiority of our model over state-of-the-art methods. We
achieved remarkable performance in completing depth maps and outperformed
existing approaches in terms of accuracy and reliability.
- Abstract(参考訳): 深度の完成は、ピクセルが欠けた深度画像を扱う上で重要なタスクであり、さらなるアプリケーションに影響を与える可能性がある。
近年のアプローチでは、カラー画像の助けを借りて深度画像の再構成に畳み込みニューラルネットワーク(CNN)を利用している。
しかし、バニラ畳み込みは、欠落したピクセルを扱う上で、無視できない欠点がある。
この問題を解決するために,エンコーダ・デコーダ構造に基づく深さ補完モデルを提案する。
本モデルでは,マスク適応型Gated Convolution (MagaConv) アーキテクチャと双方向プログレッシブフュージョン (BP-Fusion) モジュールの2つの重要なコンポーネントを紹介する。
magaconvアーキテクチャは、繰り返し更新されたマスクで畳み込み操作を変調し、精密な深度特性を得るように設計されているが、bp-fusionモジュールは、グローバルな視点で連続する双方向融合構造を利用して、徐々に深さと色の特徴を統合する。
NYU-Depth V2、DIML、SUN RGB-Dなど、人気のあるベンチマークに関する大規模な実験は、最先端の手法よりもモデルの方が優れていることを示す。
深度マップの完成と既存手法の精度と信頼性で優れた性能を実現した。
関連論文リスト
- SDformer: Efficient End-to-End Transformer for Depth Completion [5.864200786548098]
深度完了は、深度センサからの疎度測定で深度マップを予測することを目的としている。
現在、畳み込みニューラルネットワーク(CNN)ベースのモデルは、深度補完タスクに適用される最も一般的な手法である。
CNNの欠点を克服するため、適応型自己アテンション設定シーケンス・ツー・シーケンスモデルである、より効果的で強力な手法が提案されている。
論文 参考訳(メタデータ) (2024-09-12T15:52:08Z) - AGG-Net: Attention Guided Gated-convolutional Network for Depth Image
Completion [1.8820731605557168]
注意誘導ゲート畳み込みネットワーク(AGG-Net)に基づく深度画像補完のための新しいモデルを提案する。
符号化段階では、異なるスケールでの深度と色の特徴の融合を実現するために、AG-GConvモジュールが提案されている。
復号段階では、アテンションガイドスキップ接続(AG-SC)モジュールが提示され、再構成にあまりにも多くの深度に関係のない特徴を導入することを避ける。
論文 参考訳(メタデータ) (2023-09-04T14:16:08Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view
Structure from Motion [9.294501649791016]
動きからの2次元構造(SfM)は3次元再構成と視覚SLAM(vSLAM)の基礎となる。
本稿では,2視点SfM問題を最大最大推定(MLE)として定式化し,DeepMLEと表記されるフレームワークを用いて解いた。
提案手法は,最先端の2ビューSfM手法よりも精度と一般化能力において優れる。
論文 参考訳(メタデータ) (2022-10-11T15:07:25Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal
Fusion with Depth Guidance [49.94504248096527]
異なるモードの特徴表現をモデル化するためのDGONet(Depth-Guided Outpainting Network)を提案する。
1)マルチモーダル学習モジュールは、異なるモーダル特性の観点から独自の深さとRGBの特徴表現を生成する。
我々は、不明瞭な輪郭を増進し、信頼性の高いコンテンツ生成を迅速化するために、クロスモーダルロスとエッジロスからなる追加の制約戦略を特別に設計する。
論文 参考訳(メタデータ) (2022-04-12T06:06:50Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - RigNet: Repetitive Image Guided Network for Depth Completion [20.66405067066299]
近年のアプローチは、高密度な結果を予測するためのイメージガイド学習に重点を置いている。
ぼやけたイメージガイダンスとオブジェクト構造は、まだイメージガイドされたフレームワークのパフォーマンスを妨げている。
画像案内ネットワークにおける反復的な設計を探索し,徐々に深度値の回復を図る。
提案手法は,NYUv2データセットの最先端化を実現し,提出時のKITTIベンチマークで1位にランクインする。
論文 参考訳(メタデータ) (2021-07-29T08:00:33Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Dual Pixel Exploration: Simultaneous Depth Estimation and Image
Restoration [77.1056200937214]
本研究では,ぼかしと深度情報をリンクするDPペアの形成について検討する。
本稿では,画像の深さを共同で推定し,復元するためのエンドツーエンドDDDNet(DPベースのDepth and De Network)を提案する。
論文 参考訳(メタデータ) (2020-12-01T06:53:57Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。