論文の概要: Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2309.09272v2
- Date: Sun, 7 Jan 2024 13:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:01:19.973408
- Title: Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation
- Title(参考訳): 軽量自己監督単眼深度推定のための深部近傍層凝集
- Authors: Wang Boya, Wang Shuo, Ye Dong, Dou Ziwen
- Abstract要約: 文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
- 参考スコア(独自算出の注目度): 1.6775954077761863
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the frequent use of self-supervised monocular depth estimation in
robotics and autonomous driving, the model's efficiency is becoming
increasingly important. Most current approaches apply much larger and more
complex networks to improve the precision of depth estimation. Some researchers
incorporated Transformer into self-supervised monocular depth estimation to
achieve better performance. However, this method leads to high parameters and
high computation. We present a fully convolutional depth estimation network
using contextual feature fusion. Compared to UNet++ and HRNet, we use
high-resolution and low-resolution features to reserve information on small
targets and fast-moving objects instead of long-range fusion. We further
promote depth estimation results employing lightweight channel attention based
on convolution in the decoder stage. Our method reduces the parameters without
sacrificing accuracy. Experiments on the KITTI benchmark show that our method
can get better results than many large models, such as Monodepth2, with only 30
parameters. The source code is available at
https://github.com/boyagesmile/DNA-Depth.
- Abstract(参考訳): ロボット工学や自律運転における自己監督単眼深度推定の頻繁な利用により、モデルの効率性はますます重要になっている。
現在のアプローチのほとんどは、より大きく複雑なネットワークを適用して、深さ推定の精度を向上させる。
一部の研究者は、Transformerを自己教師付き単眼深度推定に組み込んで、より良い性能を実現した。
しかし、この手法は高いパラメータと高い計算につながる。
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
unet++やhrnetと比較して、私たちは長距離融合ではなく、小さなターゲットや高速に動くオブジェクトの情報を保存するために、高解像度で低解像度の機能を使用します。
さらに,デコーダ段の畳み込みに基づく軽量チャネルアテンションを用いた深さ推定結果をさらに促進する。
本手法は精度を犠牲にすることなくパラメータを削減する。
KITTIベンチマーク実験により,本手法は,約30パラメータのMonodepth2のような大規模モデルよりも優れた結果が得られることが示された。
ソースコードはhttps://github.com/boyagesmile/DNA-Depth.comで入手できる。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Monocular Depth Estimation Primed by Salient Point Detection and
Normalized Hessian Loss [43.950140695759764]
本稿では,単眼深度推定のための高精度で軽量なフレームワークを提案する。
深度方向のスケーリングとせん断に不変な正規化ヘッセン損失項を導入し,精度を著しく向上させることを示した。
提案手法は,NYU-Depth-v2 と KITTI の3.1-38.4 倍小さいモデルを用いて,ベースライン手法よりもパラメータ数が多い場合の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-08-25T07:51:09Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation [14.81943833870932]
本稿では,2つの効果的な戦略を持つ改良DepthNet,HR-Depthを提案する。
resnet-18をエンコーダとして使用すると、hr-depthは、高解像度と低解像度の両方で最小パラマエターを持つ、以前の最先端(sota)メソッドをすべて上回る。
論文 参考訳(メタデータ) (2020-12-14T09:15:15Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - MiniNet: An extremely lightweight convolutional neural network for
real-time unsupervised monocular depth estimation [22.495019810166397]
本稿では,深層ネットワークの機能を実現するために,再帰モジュールを備えた新しい強力なネットワークを提案する。
我々は、ビデオシーケンスからリアルタイムな高性能な教師なし単眼深度予測を行うために、非常に軽量なサイズを維持している。
私たちの新しいモデルは、1つのGPUで約110フレーム/秒(fps)、単一のCPUで37fps、Raspberry Pi 3で2fpsで実行できます。
論文 参考訳(メタデータ) (2020-06-27T12:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。