論文の概要: Multi-scale Recurrent LSTM and Transformer Network for Depth Completion
- arxiv url: http://arxiv.org/abs/2309.16301v1
- Date: Thu, 28 Sep 2023 09:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:08:04.843197
- Title: Multi-scale Recurrent LSTM and Transformer Network for Depth Completion
- Title(参考訳): 深度補完のためのマルチスケールリカレントLSTMと変圧器ネットワーク
- Authors: Xiaogang Jia, Yusong Tan, Songlei Jian, Yonggang Che
- Abstract要約: 本稿では,従来のLSTMおよびTransformerモジュールをNLPから深度補完へ移行する。
実験により,本手法は,単純なエンコーダ・デコーダネットワーク構造にモジュールを追加することで,最先端の性能を実現することができることを示した。
提案手法は,現在主流の自律運転型ベンチマークデータセットであるKITTIの1位にランクインしている。
- 参考スコア(独自算出の注目度): 5.898308412200993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lidar depth completion is a new and hot topic of depth estimation. In this
task, it is the key and difficult point to fuse the features of color space and
depth space. In this paper, we migrate the classic LSTM and Transformer modules
from NLP to depth completion and redesign them appropriately. Specifically, we
use Forget gate, Update gate, Output gate, and Skip gate to achieve the
efficient fusion of color and depth features and perform loop optimization at
multiple scales. Finally, we further fuse the deep features through the
Transformer multi-head attention mechanism. Experimental results show that
without repetitive network structure and post-processing steps, our method can
achieve state-of-the-art performance by adding our modules to a simple
encoder-decoder network structure. Our method ranks first on the current
mainstream autonomous driving KITTI benchmark dataset. It can also be regarded
as a backbone network for other methods, which likewise achieves
state-of-the-art performance.
- Abstract(参考訳): lidarの奥行き完了は新しいホットな奥行き推定のトピックである。
このタスクでは、色空間と深度空間の特徴を融合させることが重要かつ困難なポイントである。
本稿では,従来のLSTMおよびTransformerモジュールをNLPから深度補完へ移行し,それらを適切に再設計する。
具体的には、Forget Gate, Update Gate, Output Gate, Skip gate を用いて、色と深さの効率的な融合を実現し、複数スケールでループ最適化を行う。
最後に,Transformerのマルチヘッドアテンション機構により,より深い特徴を融合させる。
実験の結果,ネットワーク構造と後処理ステップを繰り返すことなく,単純なエンコーダ・デコーダネットワーク構造にモジュールを追加することで,最先端の性能を実現することができた。
提案手法は,現在主流の自動運転kittiベンチマークデータセットで第1位である。
これはまた、最先端のパフォーマンスを達成する他の方法のバックボーンネットワークと見なすこともできる。
関連論文リスト
- A Concise but High-performing Network for Image Guided Depth Completion in Autonomous Driving [31.916031298901988]
本稿では,高速深度補完を実現するため,CENetという高精度で効率的なネットワークを提案する。
他の一般的な複雑なガイダンスモジュールとは異なり、我々のアプローチは直感的で低コストです。
デュアルエンコーダとシングルデコーダの単純な構造に基づいて、CENetは精度と効率のバランスが良くなる。
論文 参考訳(メタデータ) (2024-01-29T06:06:45Z) - RGB-D based Stair Detection using Deep Learning for Autonomous Stair
Climbing [6.362951673024623]
本稿では,RGBマップと深度マップの両方の入力を持つニューラルネットワークアーキテクチャを提案する。
具体的には,RGBマップと深度マップの相補関係をネットワークが学習できるように,選択モジュールを設計する。
提案手法は,従来の最先端深層学習法と比較して精度の向上とリコールが可能であることを示す。
論文 参考訳(メタデータ) (2022-12-02T11:22:52Z) - Neural Architecture Search for Efficient Uncalibrated Deep Photometric
Stereo [105.05232615226602]
差別化可能なニューラルアーキテクチャサーチ(NAS)戦略を利用して、非校正型PSアーキテクチャを自動的に見つける。
DiLiGenTデータセットの実験では、自動検索されたニューラルネットワークのパフォーマンスが、最先端の未校正PSメソッドと好適に比較されている。
論文 参考訳(メタデータ) (2021-10-11T21:22:17Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。