論文の概要: Gated Cross-Attention Network for Depth Completion
- arxiv url: http://arxiv.org/abs/2309.16301v2
- Date: Sun, 21 Jan 2024 16:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:38:25.293699
- Title: Gated Cross-Attention Network for Depth Completion
- Title(参考訳): 深度補完のためのゲート型クロスアテンションネットワーク
- Authors: Xiaogang Jia, Songlei Jian, Yusong Tan, Yonggang Che, Wei Chen and
Zhengfa Liang
- Abstract要約: 色と深度の特徴の融合は、現在、深度推定の分野における重要な課題である。
我々は、ゲーティング機構を介して信頼性を伝播する効率的なGated Cross-Attention Networkを設計する。
我々は、AsyncHyperBandSchedulerスケジューラとHyperOptSearchアルゴリズムでRay Tuneメカニズムを使用して、モジュールイテレーションの最適な回数を自動的に検索する。
- 参考スコア(独自算出の注目度): 11.154059839763738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth completion is a popular research direction in the field of depth
estimation. The fusion of color and depth features is the current critical
challenge in this task, mainly due to the asymmetry between the rich scene
details in color images and the sparse pixels in depth maps. To tackle this
issue, we design an efficient Gated Cross-Attention Network that propagates
confidence via a gating mechanism, simultaneously extracting and refining key
information in both color and depth branches to achieve local spatial feature
fusion. Additionally, we employ an attention network based on the Transformer
in low-dimensional space to effectively fuse global features and increase the
network's receptive field. With a simple yet efficient gating mechanism, our
proposed method achieves fast and accurate depth completion without the need
for additional branches or post-processing steps. At the same time, we use the
Ray Tune mechanism with the AsyncHyperBandScheduler scheduler and the
HyperOptSearch algorithm to automatically search for the optimal number of
module iterations, which also allows us to achieve performance comparable to
state-of-the-art methods. We conduct experiments on both indoor and outdoor
scene datasets. Our fast network achieves Pareto-optimal solutions in terms of
time and accuracy, and at the time of submission, our accurate network ranks
first among all published papers on the KITTI official website in terms of
accuracy.
- Abstract(参考訳): 深さ完成は深さ推定の分野における一般的な研究方向である。
色と深度の特徴の融合は、主にカラー画像の豊かなシーン詳細と深度マップのスパースピクセルとの非対称性のために、この課題における現在の重要な課題である。
この問題に対処するために,ゲーティング機構を介して信頼度を伝播し,色と深度の両方のキー情報を同時に抽出・精錬し,局所的な空間的特徴融合を実現する効率的なGated Cross-Attention Networkを設計する。
さらに,低次元空間における変圧器に基づくアテンションネットワークを用いて,グローバル特徴を効果的に融合し,ネットワークの受容場を増大させる。
提案手法は, 単純かつ効率的なゲーティング機構により, 分岐や後処理を必要とせず, 高速かつ高精度な深度補完を実現する。
同時に、asynchyperbandschedulerスケジューラとhyperoptsearchアルゴリズムを備えたray tuneメカニズムを使用して、モジュールイテレーションの最適な数を自動的に検索します。
屋内および屋外の両方のシーンデータセットで実験を行う。
我々の高速ネットワークは,時間と精度でパレート最適解を達成し,提出時点では,KITTI公式ウェブサイト上のすべての論文の中で,正確なネットワークが第1位である。
関連論文リスト
- A Concise but High-performing Network for Image Guided Depth Completion in Autonomous Driving [31.916031298901988]
本稿では,高速深度補完を実現するため,CENetという高精度で効率的なネットワークを提案する。
他の一般的な複雑なガイダンスモジュールとは異なり、我々のアプローチは直感的で低コストです。
デュアルエンコーダとシングルデコーダの単純な構造に基づいて、CENetは精度と効率のバランスが良くなる。
論文 参考訳(メタデータ) (2024-01-29T06:06:45Z) - RGB-D based Stair Detection using Deep Learning for Autonomous Stair
Climbing [6.362951673024623]
本稿では,RGBマップと深度マップの両方の入力を持つニューラルネットワークアーキテクチャを提案する。
具体的には,RGBマップと深度マップの相補関係をネットワークが学習できるように,選択モジュールを設計する。
提案手法は,従来の最先端深層学習法と比較して精度の向上とリコールが可能であることを示す。
論文 参考訳(メタデータ) (2022-12-02T11:22:52Z) - Neural Architecture Search for Efficient Uncalibrated Deep Photometric
Stereo [105.05232615226602]
差別化可能なニューラルアーキテクチャサーチ(NAS)戦略を利用して、非校正型PSアーキテクチャを自動的に見つける。
DiLiGenTデータセットの実験では、自動検索されたニューラルネットワークのパフォーマンスが、最先端の未校正PSメソッドと好適に比較されている。
論文 参考訳(メタデータ) (2021-10-11T21:22:17Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。