Fugu-MT 論文翻訳(概要): Lightweight Monocular Depth Estimation through Guided Decoding

論文の概要: Lightweight Monocular Depth Estimation through Guided Decoding

arxiv url: http://arxiv.org/abs/2203.04206v1
Date: Tue, 8 Mar 2022 17:11:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-09 15:45:57.678732
Title: Lightweight Monocular Depth Estimation through Guided Decoding
Title（参考訳）: 誘導復号による軽量単眼深度推定
Authors: Michael Rudolph, Youssef Dawoud, Ronja G\"uldenring, Lazaros Nalpantidis, Vasileios Belagiannis
Abstract要約: 単眼深度推定のための軽量エンコーダ・デコーダアーチ・テクスチャを提案する。当社の主なコントリビューションは、モデルデコーダを構築するためのガイドアップサンプリングブロック(GUB)です。複数の GUB に基づいて,本モデルでは,NYU Depth V2 データセット上の関連手法を精度で比較した。
参考スコア（独自算出の注目度）: 4.3194233772412325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a lightweight encoder-decoder archi- tecture for monocular depth estimation, specifically designed for embedded platforms. Our main contribution is the Guided Upsampling Block (GUB) for building the decoder of our model. Motivated by the concept of guided image filtering, GUB relies on the image to guide the decoder on upsampling the feature representation and the depth map reconstruction, achieving high resolution results with fine-grained details. Based on multiple GUBs, our model outperforms the related methods on the NYU Depth V2 dataset in terms of accuracy while delivering up to 35.1 fps on the NVIDIA Jetson Nano and up to 144.5 fps on the NVIDIA Xavier NX. Similarly, on the KITTI dataset, inference is possible with up to 23.7 fps on the Jetson Nano and 102.9 fps on the Xavier NX. Our code and models are made publicly available.
Abstract（参考訳）: 本稿では,組込みプラットフォーム用に特別に設計された単眼深度推定のための軽量エンコーダデコーダアーチテクチュアを提案する。私たちの主な貢献は、モデルのデコーダを構築するためのガイド付きアップサンプリングブロック(gub)です。 gubは誘導型イメージフィルタリングの概念に動機づけられ、デコーダに特徴表現と深度マップの再構成のアップサンプリングを誘導し、詳細な詳細で高解像度な結果を得る。複数のGUBに基づいて、我々のモデルは、精度の観点からNYU Depth V2データセットの関連メソッドよりも優れており、NVIDIA Jetson Nanoでは最大35.1fps、NVIDIA Xavier NXでは最大144.5fpsである。同様に、KITTIデータセットでは、Jetson Nanoで最大23.7 fps、Xavier NXで最大102.9 fpsの推論が可能である。私たちのコードとモデルは公開されています。

関連論文リスト

FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution [50.55876151973996]
ビデオ深度推定モデルは,(1)フレーム間の精度,(2)高解像度深度マップの作成,(3)リアルタイムストリーミングをサポートする。提案するFlashDepthは,2044x1148ストリーミングビデオの深さ推定を24FPSで行うことで,3つの要件をすべて満たす手法である。
論文参考訳（メタデータ） (2025-04-09T17:59:31Z)
Depth Estimation From Monocular Images With Enhanced Encoder-Decoder Architecture [0.0]
本稿では,エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。 Inception-ResNet-v2モデルはエンコーダとして利用される。 NYU Depth V2データセットの実験結果は、我々のモデルが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-10-15T13:46:19Z)
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second [45.6690958201871]
ゼロショット距離単眼深度推定のための基礎モデルを提案する。我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。標準GPUで0.3秒で2.25メガピクセルの深度マップを生成する。
論文参考訳（メタデータ） (2024-10-02T22:42:20Z)
Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。提案手法は,KITTIデータセット上での競合結果を実現する。
論文参考訳（メタデータ） (2024-09-26T14:44:41Z)
V-DETR: DETR with Vertex Relative Position Encoding for 3D Object Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文参考訳（メタデータ） (2023-08-08T17:14:14Z)
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文参考訳（メタデータ） (2023-07-17T17:57:01Z)
Attention Attention Everywhere: Monocular Depth Prediction with Skip Attention [6.491470878214977]
単眼深度推定(MDE)は、1枚のRGB画像から画素幅の深さを予測することを目的としている。コンピュータビジョン問題における注目のメリットの実証から着想を得て,注意に基づくエンコーダとデコーダの融合を提案する。
論文参考訳（メタデータ） (2022-10-17T13:14:47Z)
VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文参考訳（メタデータ） (2021-11-29T08:51:20Z)
Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-09-18T00:21:17Z)
Unsupervised Depth Completion with Calibrated Backprojection Layers [79.35651668390496]
画像とスパース点雲から深度を推定するディープニューラルネットワークアーキテクチャを提案する。 LIDARや他のレンジセンサーから得られるビデオストリームとそれに対応するスパース点雲と、カメラの固有のキャリブレーションパラメータを用いてトレーニングする。推論時に、トレーニングに用いるものと異なるカメラの校正を、スパース点雲と1つの画像とともにネットワークへの入力として行う。
論文参考訳（メタデータ） (2021-08-24T05:41:59Z)
Single image deep defocus estimation and its applications [82.93345261434943]
画像パッチを20レベルの曖昧さの1つに分類するために、ディープニューラルネットワークをトレーニングします。トレーニングされたモデルは、反復重み付きガイドフィルタを適用して改善するパッチのぼかしを決定するために使用される。その結果、デフォーカスマップは各ピクセルのぼやけた度合いの情報を運ぶ。
論文参考訳（メタデータ） (2021-07-30T06:18:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。