論文の概要: MiniNet: An extremely lightweight convolutional neural network for
real-time unsupervised monocular depth estimation
- arxiv url: http://arxiv.org/abs/2006.15350v1
- Date: Sat, 27 Jun 2020 12:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 07:49:50.444111
- Title: MiniNet: An extremely lightweight convolutional neural network for
real-time unsupervised monocular depth estimation
- Title(参考訳): mininet: リアルタイム教師なし単眼深度推定のための超軽量畳み込みニューラルネットワーク
- Authors: Jun Liu, Qing Li, Rui Cao, Wenming Tang, Guoping Qiu
- Abstract要約: 本稿では,深層ネットワークの機能を実現するために,再帰モジュールを備えた新しい強力なネットワークを提案する。
我々は、ビデオシーケンスからリアルタイムな高性能な教師なし単眼深度予測を行うために、非常に軽量なサイズを維持している。
私たちの新しいモデルは、1つのGPUで約110フレーム/秒(fps)、単一のCPUで37fps、Raspberry Pi 3で2fpsで実行できます。
- 参考スコア(独自算出の注目度): 22.495019810166397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting depth from a single image is an attractive research topic since it
provides one more dimension of information to enable machines to better
perceive the world. Recently, deep learning has emerged as an effective
approach to monocular depth estimation. As obtaining labeled data is costly,
there is a recent trend to move from supervised learning to unsupervised
learning to obtain monocular depth. However, most unsupervised learning methods
capable of achieving high depth prediction accuracy will require a deep network
architecture which will be too heavy and complex to run on embedded devices
with limited storage and memory spaces. To address this issue, we propose a new
powerful network with a recurrent module to achieve the capability of a deep
network while at the same time maintaining an extremely lightweight size for
real-time high performance unsupervised monocular depth prediction from video
sequences. Besides, a novel efficient upsample block is proposed to fuse the
features from the associated encoder layer and recover the spatial size of
features with the small number of model parameters. We validate the
effectiveness of our approach via extensive experiments on the KITTI dataset.
Our new model can run at a speed of about 110 frames per second (fps) on a
single GPU, 37 fps on a single CPU, and 2 fps on a Raspberry Pi 3. Moreover, it
achieves higher depth accuracy with nearly 33 times fewer model parameters than
state-of-the-art models. To the best of our knowledge, this work is the first
extremely lightweight neural network trained on monocular video sequences for
real-time unsupervised monocular depth estimation, which opens up the
possibility of implementing deep learning-based real-time unsupervised
monocular depth prediction on low-cost embedded devices.
- Abstract(参考訳): ひとつの画像から深度を予測することは、機械が世界をよりよく知覚できるように、さらに1次元の情報を提供するので、魅力的な研究トピックである。
近年,単眼深度推定への効果的なアプローチとしてディープラーニングが登場している。
ラベル付きデータの取得はコストがかかるため、教師なし学習から教師なし学習へ移行し、単眼深度を得る傾向にある。
しかし、高深度予測精度を達成するための教師なし学習手法のほとんどは、ストレージやメモリスペースが限られた組み込みデバイスで実行するには重く複雑すぎるディープネットワークアーキテクチャを必要とする。
この問題に対処するため,ビデオシーケンスからリアルタイムに非教師なし単眼深度予測を行うために,非常に軽量なサイズを維持しながら,ディープネットワークの能力を実現するために,リカレントモジュールを備えた新しい強力なネットワークを提案する。
さらに,関連エンコーダ層から特徴を融合させ,少数のモデルパラメータで特徴の空間的サイズを復元するために,新しい効率的なアップサンプルブロックを提案する。
KITTIデータセットの広範な実験により,提案手法の有効性を検証する。
私たちの新しいモデルは、1つのGPUで約110フレーム/秒(fps)、単一のCPUで37fps、Raspberry Pi 3で2fpsで実行できます。
さらに、最先端モデルよりも33倍近いモデルパラメータで高い深度精度を実現する。
我々の知る限り、この研究は、リアルタイムに教師なしの単眼深度推定のためのモノクロビデオシーケンスに基づいて訓練された初めての超軽量ニューラルネットワークであり、低コストの組み込みデバイスにディープラーニングベースのリアルタイムの非教師なし単眼深度予測を実装する可能性を開く。
関連論文リスト
- Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation [20.230238670888454]
本稿では,アフィン不変な単分子深度推定法であるMarigoldを紹介する。
合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。
特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-12-04T18:59:13Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Lightweight Monocular Depth Estimation with an Edge Guided Network [34.03711454383413]
本稿では,新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、軽量なエンコーダデコーダアーキテクチャから始め、エッジガイダンスブランチを組み込む。
コンテクスト情報とエッジアテンション特徴を集約するために,トランスフォーマーをベースとした機能アグリゲーションモジュールを設計する。
論文 参考訳(メタデータ) (2022-09-29T14:45:47Z) - Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR [22.202192422883122]
本稿では,自己教師付き単分子深度学習を推進するための2段階ネットワークを提案する。
本モデルでは,単色画像特徴と疎LiDAR特徴を融合させて初期深度マップを推定する。
我々のモデルは、下流タスクのモノクロ3Dオブジェクト検出において、最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。
論文 参考訳(メタデータ) (2021-09-20T15:28:36Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - SelfDeco: Self-Supervised Monocular Depth Completion in Challenging
Indoor Environments [50.761917113239996]
自己教師付き単分子深度補完のための新しいアルゴリズムを提案する。
提案手法は,深度ラベルを含まない疎深度測定とそれに対応する単眼ビデオシーケンスのみを必要とするニューラルネットワークのトレーニングに基づく。
我々の自己監督アルゴリズムは、テクスチャのない領域、光沢のない透明な表面、非ランバートの表面、動く人々、より長く多様な深度範囲、複雑なエゴモーションによって捉えられたシーンを含む屋内環境に挑戦するために設計されている。
論文 参考訳(メタデータ) (2020-11-10T08:55:07Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。