論文の概要: Lightweight Monocular Depth Estimation through Guided Decoding
- arxiv url: http://arxiv.org/abs/2203.04206v1
- Date: Tue, 8 Mar 2022 17:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:45:57.678732
- Title: Lightweight Monocular Depth Estimation through Guided Decoding
- Title(参考訳): 誘導復号による軽量単眼深度推定
- Authors: Michael Rudolph, Youssef Dawoud, Ronja G\"uldenring, Lazaros
Nalpantidis, Vasileios Belagiannis
- Abstract要約: 単眼深度推定のための軽量エンコーダ・デコーダアーチ・テクスチャを提案する。
当社の主なコントリビューションは、モデルデコーダを構築するためのガイドアップサンプリングブロック(GUB)です。
複数の GUB に基づいて,本モデルでは,NYU Depth V2 データセット上の関連手法を精度で比較した。
- 参考スコア(独自算出の注目度): 4.3194233772412325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a lightweight encoder-decoder archi- tecture for monocular depth
estimation, specifically designed for embedded platforms. Our main contribution
is the Guided Upsampling Block (GUB) for building the decoder of our model.
Motivated by the concept of guided image filtering, GUB relies on the image to
guide the decoder on upsampling the feature representation and the depth map
reconstruction, achieving high resolution results with fine-grained details.
Based on multiple GUBs, our model outperforms the related methods on the NYU
Depth V2 dataset in terms of accuracy while delivering up to 35.1 fps on the
NVIDIA Jetson Nano and up to 144.5 fps on the NVIDIA Xavier NX. Similarly, on
the KITTI dataset, inference is possible with up to 23.7 fps on the Jetson Nano
and 102.9 fps on the Xavier NX. Our code and models are made publicly
available.
- Abstract(参考訳): 本稿では,組込みプラットフォーム用に特別に設計された単眼深度推定のための軽量エンコーダデコーダアーチテクチュアを提案する。
私たちの主な貢献は、モデルのデコーダを構築するためのガイド付きアップサンプリングブロック(gub)です。
gubは誘導型イメージフィルタリングの概念に動機づけられ、デコーダに特徴表現と深度マップの再構成のアップサンプリングを誘導し、詳細な詳細で高解像度な結果を得る。
複数のGUBに基づいて、我々のモデルは、精度の観点からNYU Depth V2データセットの関連メソッドよりも優れており、NVIDIA Jetson Nanoでは最大35.1fps、NVIDIA Xavier NXでは最大144.5fpsである。
同様に、KITTIデータセットでは、Jetson Nanoで最大23.7 fps、Xavier NXで最大102.9 fpsの推論が可能である。
私たちのコードとモデルは公開されています。
関連論文リスト
- Depth Estimation From Monocular Images With Enhanced Encoder-Decoder Architecture [0.0]
本稿では,エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。
Inception-ResNet-v2モデルはエンコーダとして利用される。
NYU Depth V2データセットの実験結果は、我々のモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-15T13:46:19Z) - Depth Pro: Sharp Monocular Metric Depth in Less Than a Second [45.6690958201871]
ゼロショット距離単眼深度推定のための基礎モデルを提案する。
我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。
標準GPUで0.3秒で2.25メガピクセルの深度マップを生成する。
論文 参考訳(メタデータ) (2024-10-02T22:42:20Z) - Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Attention Attention Everywhere: Monocular Depth Prediction with Skip
Attention [6.491470878214977]
単眼深度推定(MDE)は、1枚のRGB画像から画素幅の深さを予測することを目的としている。
コンピュータビジョン問題における注目のメリットの実証から着想を得て,注意に基づくエンコーダとデコーダの融合を提案する。
論文 参考訳(メタデータ) (2022-10-17T13:14:47Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Unsupervised Depth Completion with Calibrated Backprojection Layers [79.35651668390496]
画像とスパース点雲から深度を推定するディープニューラルネットワークアーキテクチャを提案する。
LIDARや他のレンジセンサーから得られるビデオストリームとそれに対応するスパース点雲と、カメラの固有のキャリブレーションパラメータを用いてトレーニングする。
推論時に、トレーニングに用いるものと異なるカメラの校正を、スパース点雲と1つの画像とともにネットワークへの入力として行う。
論文 参考訳(メタデータ) (2021-08-24T05:41:59Z) - Single image deep defocus estimation and its applications [82.93345261434943]
画像パッチを20レベルの曖昧さの1つに分類するために、ディープニューラルネットワークをトレーニングします。
トレーニングされたモデルは、反復重み付きガイドフィルタを適用して改善するパッチのぼかしを決定するために使用される。
その結果、デフォーカスマップは各ピクセルのぼやけた度合いの情報を運ぶ。
論文 参考訳(メタデータ) (2021-07-30T06:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。