Fugu-MT 論文翻訳(概要): Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation

論文の概要: Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation

arxiv url: http://arxiv.org/abs/2410.11610v4
Date: Thu, 23 Jan 2025 17:18:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 16:15:53.380264
Title: Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation
Title（参考訳）: 高精度な単眼深度推定のためのエンコーダデコーダアーキテクチャ
Authors: Dabbrata Das, Argho Deb Das, Farhan Sadaf,
Abstract要約: 本稿では,拡張エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。マルチスケールの特徴抽出を取り入れ、様々な物体の大きさと距離の深さ予測精度を高める。 KITTIデータセットによる実験結果から,本モデルでは0.019秒でかなり高速な推定時間を達成できた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Estimating depth from a single 2D image is a challenging task due to the lack of stereo or multi-view data, which are typically required for depth perception. In state-of-the-art architectures, the main challenge is to efficiently capture complex objects and fine-grained details, which are often difficult to predict. This paper introduces a novel deep learning-based approach using an enhanced encoder-decoder architecture, where the Inception-ResNet-v2 model serves as the encoder. This is the first instance of utilizing Inception-ResNet-v2 as an encoder for monocular depth estimation, demonstrating improved performance over previous models. It incorporates multi-scale feature extraction to enhance depth prediction accuracy across various object sizes and distances. We propose a composite loss function comprising depth loss, gradient edge loss, and Structural Similarity Index Measure (SSIM) loss, with fine-tuned weights to optimize the weighted sum, ensuring a balance across different aspects of depth estimation. Experimental results on the KITTI dataset show that our model achieves a significantly faster inference time of 0.019 seconds, outperforming vision transformers in efficiency while maintaining good accuracy. On the NYU Depth V2 dataset, the model establishes state-of-the-art performance, with an Absolute Relative Error (ARE) of 0.064, a Root Mean Square Error (RMSE) of 0.228, and an accuracy of 89.3% for $\delta$ < 1.25. These metrics demonstrate that our model can accurately and efficiently predict depth even in challenging scenarios, providing a practical solution for real-time applications.
Abstract（参考訳）: 単一の2次元画像から深度を推定することは、通常、深度知覚に必要とされるステレオデータや多視点データがないため、難しい作業である。最先端のアーキテクチャでは、複雑なオブジェクトと細かな詳細を効率的にキャプチャすることが主な課題であり、予測が難しいことが多い。本稿では、インセプション-ResNet-v2モデルがエンコーダとして機能する拡張エンコーダ-デコーダアーキテクチャを用いた、新しいディープラーニングベースのアプローチを提案する。これは、インセプション-ResNet-v2をモノクロ深度推定のためのエンコーダとして利用し、以前のモデルよりも改善された性能を示す最初の例である。マルチスケールの特徴抽出を取り入れ、様々な物体の大きさと距離の深さ予測精度を高める。重み付け和を最適化するため, 深さ損失, 勾配エッジ損失, 構造類似度指数(SSIM)損失を含む複合損失関数を提案する。 KITTIデータセットによる実験結果から,我々のモデルは0.019秒の予測時間をはるかに高速に達成し,高い精度を維持しつつ,視覚変換器の効率を向上することが示された。 NYU Depth V2データセットでは、ARE(Absolute Relative Error)0.064、RMSE(Root Mean Square Error)0.228、精度は89.3%で、最先端のパフォーマンスを確立している。これらのメトリクスは、挑戦的なシナリオであっても、モデルが正確かつ効率的に深度を予測できることを示し、リアルタイムアプリケーションに実用的なソリューションを提供する。

関連論文リスト

Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。提案手法は,KITTIデータセット上での競合結果を実現する。
論文参考訳（メタデータ） (2024-09-26T14:44:41Z)
Depth Estimation using Weighted-loss and Transfer Learning [2.428301619698667]
転送学習と最適化された損失関数を用いた深度推定精度の向上のための簡易かつ適応的なアプローチを提案する。本研究では,移動学習と最適損失関数を用いた深度推定精度向上のための簡易かつ適応的な手法を提案する。 EfficientNetが最も成功したアーキテクチャである。
論文参考訳（メタデータ） (2024-04-11T12:25:54Z)
NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-22T11:48:06Z)
Deep Neighbor Layer Aggregation for Lightweight Self-Supervised Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。 UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。本手法は精度を犠牲にすることなくパラメータを削減する。
論文参考訳（メタデータ） (2023-09-17T13:40:15Z)
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文参考訳（メタデータ） (2023-07-17T17:57:01Z)
Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文参考訳（メタデータ） (2023-03-31T16:01:03Z)
Towards Accurate Reconstruction of 3D Scene Shape from A Single Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-28T16:20:14Z)
RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。 RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文参考訳（メタデータ） (2022-07-25T08:49:59Z)
DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。 DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-05-28T16:18:08Z)
HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model [3.5290359800552946]
HiMODE は CNN+ Transformer アーキテクチャに基づく新しい単分子全方位深度推定モデルである。 360deg単分子深度推定において,HiMODEは最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-04-11T11:11:43Z)
Sparse Depth Completion with Semantic Mesh Deformation Optimization [4.03103540543081]
本稿では、RGB画像とスパース深度サンプルを入力とし、完全な深度マップを予測し、最適化後のニューラルネットワークを提案する。評価結果は,屋内および屋外両方のデータセットにおいて,既存の成果を一貫して上回る結果となった。
論文参考訳（メタデータ） (2021-12-10T13:01:06Z)
Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文参考訳（メタデータ） (2021-07-28T11:00:47Z)
PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文参考訳（メタデータ） (2021-03-12T15:54:46Z)
CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文参考訳（メタデータ） (2020-12-18T09:42:54Z)
Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文参考訳（メタデータ） (2020-12-17T02:35:13Z)
A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文参考訳（メタデータ） (2020-07-14T04:40:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。