論文の概要: RT-MonoDepth: Real-time Monocular Depth Estimation on Embedded Systems
- arxiv url: http://arxiv.org/abs/2308.10569v1
- Date: Mon, 21 Aug 2023 08:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:18:43.228444
- Title: RT-MonoDepth: Real-time Monocular Depth Estimation on Embedded Systems
- Title(参考訳): RT-MonoDepth:組み込みシステムにおけるリアルタイム単眼深度推定
- Authors: Cheng Feng, Zhen Chen, Congxuan Zhang, Weiming Hu, Bing Li, Feng Lu
- Abstract要約: 最先端のモノクロCNNに基づく深度推定手法は,組込みプラットフォーム上でのリアルタイム推論には遅すぎる。
計算複雑性とレイテンシを低減するために, RT-MonoDepth と RT-MonoDepth-S という, 効率的で軽量なエンコーダデコーダネットワークアーキテクチャを提案する。
我々のネットワークであるRT-MonoDepthとRT-MonoDepth-Sは、NVIDIA Jetson Nano上の18.4&30.5 FPS、NVIDIA Jetson AGX Orin上の253.0&364.1 FPSを単一のRGBイメージで実行しています。
- 参考スコア(独自算出の注目度): 41.02652244065227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth sensing is a crucial function of unmanned aerial vehicles and
autonomous vehicles. Due to the small size and simple structure of monocular
cameras, there has been a growing interest in depth estimation from a single
RGB image. However, state-of-the-art monocular CNN-based depth estimation
methods using fairly complex deep neural networks are too slow for real-time
inference on embedded platforms. This paper addresses the problem of real-time
depth estimation on embedded systems. We propose two efficient and lightweight
encoder-decoder network architectures, RT-MonoDepth and RT-MonoDepth-S, to
reduce computational complexity and latency. Our methodologies demonstrate that
it is possible to achieve similar accuracy as prior state-of-the-art works on
depth estimation at a faster inference speed. Our proposed networks,
RT-MonoDepth and RT-MonoDepth-S, runs at 18.4\&30.5 FPS on NVIDIA Jetson Nano
and 253.0\&364.1 FPS on NVIDIA Jetson AGX Orin on a single RGB image of
resolution 640$\times$192, and achieve relative state-of-the-art accuracy on
the KITTI dataset. To the best of the authors' knowledge, this paper achieves
the best accuracy and fastest inference speed compared with existing fast
monocular depth estimation methods.
- Abstract(参考訳): 深度検知は無人航空機と自律車両にとって重要な機能である。
単眼カメラのサイズが小さく、構造が単純であるため、単一のrgb画像からの深度推定への関心が高まっている。
しかし、かなり複雑なディープニューラルネットワークを用いた最先端のモノクラーCNNに基づく深さ推定手法は、組み込みプラットフォームでのリアルタイム推論には遅すぎる。
本稿では,組込みシステムにおけるリアルタイム深度推定の問題に対処する。
計算複雑性とレイテンシを低減するために, RT-MonoDepthとRT-MonoDepth-Sという, 効率的で軽量なエンコーダデコーダネットワークアーキテクチャを提案する。
提案手法は,先行技術がより高速な推定速度で深度推定を行うのと類似した精度を達成できることを実証する。
提案するネットワークであるRT-MonoDepthとRT-MonoDepth-Sは、NVIDIA Jetson Nano上で18.4\&30.5 FPS、NVIDIA Jetson AGX Orin上で253.0\&364.1 FPS、解像度640$\times$192の単一のRGBイメージで動作し、KITTIデータセット上で比較的最先端の精度を実現する。
著者の知識を最大限に活用するため,本論文は,既存の高速単眼深度推定法と比較して,最良かつ高速な推定速度を実現する。
関連論文リスト
- Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - Lightweight Monocular Depth Estimation via Token-Sharing Transformer [27.69898661818893]
Token-Sharing Transformer (TST) はモノクロ深度推定にTransformerを用いており、特に組み込みデバイスで最適化されている。
NYU Depth v2データセットでは、NVIDIA Jetson Nanoの63.4 FPS、NVIDIA Jetson TX2の142.6 FPSまでの深度マップを、既存の方法よりも低いエラーで提供することができる。
論文 参考訳(メタデータ) (2023-06-09T05:51:40Z) - UDepth: Fast Monocular Depth Estimation for Visually-guided Underwater
Robots [4.157415305926584]
低コスト水中ロボットの3次元認識機能を実現するための高速な単眼深度推定法を提案する。
我々は,自然の水中シーンの画像形成特性に関するドメイン知識を取り入れた,UDepthという新しいエンド・ツー・エンドの深層学習パイプラインを定式化した。
論文 参考訳(メタデータ) (2022-09-26T01:08:36Z) - Real-Time Monocular Human Depth Estimation and Segmentation on Embedded
Systems [13.490605853268837]
移動中の歩行者に対する衝突回避を実現するためにシーンの深さを推定することは、ロボット分野における決定的かつ基本的な問題である。
本稿では,室内環境における人体深度推定とセグメンテーションを高速かつ高精度に行うための,新しい低複雑性ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-08-24T03:26:08Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - MiniNet: An extremely lightweight convolutional neural network for
real-time unsupervised monocular depth estimation [22.495019810166397]
本稿では,深層ネットワークの機能を実現するために,再帰モジュールを備えた新しい強力なネットワークを提案する。
我々は、ビデオシーケンスからリアルタイムな高性能な教師なし単眼深度予測を行うために、非常に軽量なサイズを維持している。
私たちの新しいモデルは、1つのGPUで約110フレーム/秒(fps)、単一のCPUで37fps、Raspberry Pi 3で2fpsで実行できます。
論文 参考訳(メタデータ) (2020-06-27T12:13:22Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。