論文の概要: Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2410.11610v4
- Date: Thu, 23 Jan 2025 17:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:00.948524
- Title: Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation
- Title(参考訳): 高精度な単眼深度推定のためのエンコーダデコーダアーキテクチャ
- Authors: Dabbrata Das, Argho Deb Das, Farhan Sadaf,
- Abstract要約: 本稿では,拡張エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。
マルチスケールの特徴抽出を取り入れ、様々な物体の大きさと距離の深さ予測精度を高める。
KITTIデータセットによる実験結果から,本モデルでは0.019秒でかなり高速な推定時間を達成できた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Estimating depth from a single 2D image is a challenging task due to the lack of stereo or multi-view data, which are typically required for depth perception. In state-of-the-art architectures, the main challenge is to efficiently capture complex objects and fine-grained details, which are often difficult to predict. This paper introduces a novel deep learning-based approach using an enhanced encoder-decoder architecture, where the Inception-ResNet-v2 model serves as the encoder. This is the first instance of utilizing Inception-ResNet-v2 as an encoder for monocular depth estimation, demonstrating improved performance over previous models. It incorporates multi-scale feature extraction to enhance depth prediction accuracy across various object sizes and distances. We propose a composite loss function comprising depth loss, gradient edge loss, and Structural Similarity Index Measure (SSIM) loss, with fine-tuned weights to optimize the weighted sum, ensuring a balance across different aspects of depth estimation. Experimental results on the KITTI dataset show that our model achieves a significantly faster inference time of 0.019 seconds, outperforming vision transformers in efficiency while maintaining good accuracy. On the NYU Depth V2 dataset, the model establishes state-of-the-art performance, with an Absolute Relative Error (ARE) of 0.064, a Root Mean Square Error (RMSE) of 0.228, and an accuracy of 89.3% for $\delta$ < 1.25. These metrics demonstrate that our model can accurately and efficiently predict depth even in challenging scenarios, providing a practical solution for real-time applications.
- Abstract(参考訳): 単一の2次元画像から深度を推定することは、通常、深度知覚に必要とされるステレオデータや多視点データがないため、難しい作業である。
最先端のアーキテクチャでは、複雑なオブジェクトと細かな詳細を効率的にキャプチャすることが主な課題であり、予測が難しいことが多い。
本稿では、インセプション-ResNet-v2モデルがエンコーダとして機能する拡張エンコーダ-デコーダアーキテクチャを用いた、新しいディープラーニングベースのアプローチを提案する。
これは、インセプション-ResNet-v2をモノクロ深度推定のためのエンコーダとして利用し、以前のモデルよりも改善された性能を示す最初の例である。
マルチスケールの特徴抽出を取り入れ、様々な物体の大きさと距離の深さ予測精度を高める。
重み付け和を最適化するため, 深さ損失, 勾配エッジ損失, 構造類似度指数(SSIM)損失を含む複合損失関数を提案する。
KITTIデータセットによる実験結果から,我々のモデルは0.019秒の予測時間をはるかに高速に達成し,高い精度を維持しつつ,視覚変換器の効率を向上することが示された。
NYU Depth V2データセットでは、ARE(Absolute Relative Error)0.064、RMSE(Root Mean Square Error)0.228、精度は89.3%で、最先端のパフォーマンスを確立している。
これらのメトリクスは、挑戦的なシナリオであっても、モデルが正確かつ効率的に深度を予測できることを示し、リアルタイムアプリケーションに実用的なソリューションを提供する。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - Depth Estimation using Weighted-loss and Transfer Learning [2.428301619698667]
転送学習と最適化された損失関数を用いた深度推定精度の向上のための簡易かつ適応的なアプローチを提案する。
本研究では,移動学習と最適損失関数を用いた深度推定精度向上のための簡易かつ適応的な手法を提案する。
EfficientNetが最も成功したアーキテクチャである。
論文 参考訳(メタデータ) (2024-04-11T12:25:54Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。
RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文 参考訳(メタデータ) (2022-07-25T08:49:59Z) - HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model [3.5290359800552946]
HiMODE は CNN+ Transformer アーキテクチャに基づく新しい単分子全方位深度推定モデルである。
360deg単分子深度推定において,HiMODEは最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-04-11T11:11:43Z) - Sparse Depth Completion with Semantic Mesh Deformation Optimization [4.03103540543081]
本稿では、RGB画像とスパース深度サンプルを入力とし、完全な深度マップを予測し、最適化後のニューラルネットワークを提案する。
評価結果は,屋内および屋外両方のデータセットにおいて,既存の成果を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2021-12-10T13:01:06Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。