論文の概要: Lightweight Monocular Depth Estimation through Guided Decoding
- arxiv url: http://arxiv.org/abs/2203.04206v1
- Date: Tue, 8 Mar 2022 17:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:45:57.678732
- Title: Lightweight Monocular Depth Estimation through Guided Decoding
- Title(参考訳): 誘導復号による軽量単眼深度推定
- Authors: Michael Rudolph, Youssef Dawoud, Ronja G\"uldenring, Lazaros
Nalpantidis, Vasileios Belagiannis
- Abstract要約: 単眼深度推定のための軽量エンコーダ・デコーダアーチ・テクスチャを提案する。
当社の主なコントリビューションは、モデルデコーダを構築するためのガイドアップサンプリングブロック(GUB)です。
複数の GUB に基づいて,本モデルでは,NYU Depth V2 データセット上の関連手法を精度で比較した。
- 参考スコア(独自算出の注目度): 4.3194233772412325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a lightweight encoder-decoder archi- tecture for monocular depth
estimation, specifically designed for embedded platforms. Our main contribution
is the Guided Upsampling Block (GUB) for building the decoder of our model.
Motivated by the concept of guided image filtering, GUB relies on the image to
guide the decoder on upsampling the feature representation and the depth map
reconstruction, achieving high resolution results with fine-grained details.
Based on multiple GUBs, our model outperforms the related methods on the NYU
Depth V2 dataset in terms of accuracy while delivering up to 35.1 fps on the
NVIDIA Jetson Nano and up to 144.5 fps on the NVIDIA Xavier NX. Similarly, on
the KITTI dataset, inference is possible with up to 23.7 fps on the Jetson Nano
and 102.9 fps on the Xavier NX. Our code and models are made publicly
available.
- Abstract(参考訳): 本稿では,組込みプラットフォーム用に特別に設計された単眼深度推定のための軽量エンコーダデコーダアーチテクチュアを提案する。
私たちの主な貢献は、モデルのデコーダを構築するためのガイド付きアップサンプリングブロック(gub)です。
gubは誘導型イメージフィルタリングの概念に動機づけられ、デコーダに特徴表現と深度マップの再構成のアップサンプリングを誘導し、詳細な詳細で高解像度な結果を得る。
複数のGUBに基づいて、我々のモデルは、精度の観点からNYU Depth V2データセットの関連メソッドよりも優れており、NVIDIA Jetson Nanoでは最大35.1fps、NVIDIA Xavier NXでは最大144.5fpsである。
同様に、KITTIデータセットでは、Jetson Nanoで最大23.7 fps、Xavier NXで最大102.9 fpsの推論が可能である。
私たちのコードとモデルは公開されています。
関連論文リスト
- V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Neural Video Depth Stabilizer [74.04508918791637]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
いくつかの方法は、幾何学的制約と再射影制約を用いて、テスト時間中に単一画像深度モデルを微調整することで、時間的整合性を達成する。
本稿では,不整合深度推定を安定化し,余分な労力を伴わずに異なる単一画像深度モデルに適用可能なプラグアンドプレイフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - AutoDepthNet: High Frame Rate Depth Map Reconstruction using Commodity
Depth and RGB Cameras [7.711080558364457]
本稿では,遅延を低減し,奥行きカメラのフレームレートを向上させるために,高速かつ高精度な深度マップ再構成手法を提案する。
私たちのアプローチでは、ハイブリッドカメラのセットアップでは、コモディティデプスカメラとカラーカメラのみを使用します。
提案するネットワークであるAutoDepthNetは、高速RGBカメラからフレームをキャプチャし、それらを以前の深度フレームと組み合わせて高フレームレート深度マップのストリームを再構築するエンコーダデコーダモデルである。
論文 参考訳(メタデータ) (2023-05-24T05:09:43Z) - Attention Attention Everywhere: Monocular Depth Prediction with Skip
Attention [6.491470878214977]
単眼深度推定(MDE)は、1枚のRGB画像から画素幅の深さを予測することを目的としている。
コンピュータビジョン問題における注目のメリットの実証から着想を得て,注意に基づくエンコーダとデコーダの融合を提案する。
論文 参考訳(メタデータ) (2022-10-17T13:14:47Z) - Lightweight Monocular Depth Estimation with an Edge Guided Network [34.03711454383413]
本稿では,新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、軽量なエンコーダデコーダアーキテクチャから始め、エッジガイダンスブランチを組み込む。
コンテクスト情報とエッジアテンション特徴を集約するために,トランスフォーマーをベースとした機能アグリゲーションモジュールを設計する。
論文 参考訳(メタデータ) (2022-09-29T14:45:47Z) - HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model [3.5290359800552946]
HiMODE は CNN+ Transformer アーキテクチャに基づく新しい単分子全方位深度推定モデルである。
360deg単分子深度推定において,HiMODEは最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-04-11T11:11:43Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Unsupervised Depth Completion with Calibrated Backprojection Layers [79.35651668390496]
画像とスパース点雲から深度を推定するディープニューラルネットワークアーキテクチャを提案する。
LIDARや他のレンジセンサーから得られるビデオストリームとそれに対応するスパース点雲と、カメラの固有のキャリブレーションパラメータを用いてトレーニングする。
推論時に、トレーニングに用いるものと異なるカメラの校正を、スパース点雲と1つの画像とともにネットワークへの入力として行う。
論文 参考訳(メタデータ) (2021-08-24T05:41:59Z) - Single image deep defocus estimation and its applications [82.93345261434943]
画像パッチを20レベルの曖昧さの1つに分類するために、ディープニューラルネットワークをトレーニングします。
トレーニングされたモデルは、反復重み付きガイドフィルタを適用して改善するパッチのぼかしを決定するために使用される。
その結果、デフォーカスマップは各ピクセルのぼやけた度合いの情報を運ぶ。
論文 参考訳(メタデータ) (2021-07-30T06:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。