Fugu-MT 論文翻訳(概要): Depth Estimation From Monocular Images With Enhanced Encoder-Decoder Architecture

論文の概要: Depth Estimation From Monocular Images With Enhanced Encoder-Decoder Architecture

arxiv url: http://arxiv.org/abs/2410.11610v1
Date: Tue, 15 Oct 2024 13:46:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.80364
Title: Depth Estimation From Monocular Images With Enhanced Encoder-Decoder Architecture
Title（参考訳）: エンコーダデコーダアーキテクチャによる単眼画像の深さ推定
Authors: Dabbrata Das, Argho Deb Das, Farhan Sadaf,
Abstract要約: 本稿では,エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。 Inception-ResNet-v2モデルはエンコーダとして利用される。 NYU Depth V2データセットの実験結果は、我々のモデルが最先端のパフォーマンスを達成することを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Estimating depth from a single 2D image is a challenging task because of the need for stereo or multi-view data, which normally provides depth information. This paper deals with this challenge by introducing a novel deep learning-based approach using an encoder-decoder architecture, where the Inception-ResNet-v2 model is utilized as the encoder. According to the available literature, this is the first instance of using Inception-ResNet-v2 as an encoder for monocular depth estimation, illustrating better performance than previous models. The use of Inception-ResNet-v2 enables our model to capture complex objects and fine-grained details effectively that are generally difficult to predict. Besides, our model incorporates multi-scale feature extraction to enhance depth prediction accuracy across different kinds of object sizes and distances. We propose a composite loss function consisting of depth loss, gradient edge loss, and SSIM loss, where the weights are fine-tuned to optimize the weighted sum, ensuring better balance across different aspects of depth estimation. Experimental results on the NYU Depth V2 dataset show that our model achieves state-of-the-art performance, with an ARE of 0.064, RMSE of 0.228, and accuracy ($\delta$ $<1.25$) of 89.3%. These metrics demonstrate that our model effectively predicts depth, even in challenging circumstances, providing a scalable solution for real-world applications in robotics, 3D reconstruction, and augmented reality.
Abstract（参考訳）: 単一の2次元画像から深度を推定することは、通常、深度情報を提供するステレオデータや多視点データを必要とするため、難しい作業である。本稿では、インセプション-ResNet-v2モデルをエンコーダとして利用するエンコーダ-デコーダアーキテクチャを用いた、新しいディープラーニングベースのアプローチを導入することで、この問題に対処する。利用可能な文献によると、これはインセプション-ResNet-v2をモノクロ深度推定のエンコーダとして使用し、以前のモデルよりも優れたパフォーマンスを示す最初の例である。 Inception-ResNet-v2を使用することで、複雑なオブジェクトと、予測するのが一般的に難しい詳細を効果的に把握できます。さらに,本モデルでは,複数種類の物体の大きさと距離の深度予測精度を高めるため,マルチスケール特徴抽出を取り入れた。重み付け和を最適化するために、重み付けを微調整し、深さ推定の異なる側面のバランスを良くする、深さ損失、勾配エッジ損失、SSIM損失からなる複合損失関数を提案する。 AREは0.064、RMSEは0.228、精度は89.3%($<1.25$)である。これらの指標は、ロボット工学、3D再構成、拡張現実における現実の応用のためのスケーラブルなソリューションを提供する、困難な状況であっても、我々のモデルが効果的に深度を予測することを実証している。

関連論文リスト

Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。提案手法は,KITTIデータセット上での競合結果を実現する。
論文参考訳（メタデータ） (2024-09-26T14:44:41Z)
Depth Estimation using Weighted-loss and Transfer Learning [2.428301619698667]
転送学習と最適化された損失関数を用いた深度推定精度の向上のための簡易かつ適応的なアプローチを提案する。本研究では,移動学習と最適損失関数を用いた深度推定精度向上のための簡易かつ適応的な手法を提案する。 EfficientNetが最も成功したアーキテクチャである。
論文参考訳（メタデータ） (2024-04-11T12:25:54Z)
NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-22T11:48:06Z)
Deep Neighbor Layer Aggregation for Lightweight Self-Supervised Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。 UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。本手法は精度を犠牲にすることなくパラメータを削減する。
論文参考訳（メタデータ） (2023-09-17T13:40:15Z)
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文参考訳（メタデータ） (2023-07-17T17:57:01Z)
Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文参考訳（メタデータ） (2023-03-31T16:01:03Z)
Towards Accurate Reconstruction of 3D Scene Shape from A Single Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-28T16:20:14Z)
RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。 RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文参考訳（メタデータ） (2022-07-25T08:49:59Z)
DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。 DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-05-28T16:18:08Z)
HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model [3.5290359800552946]
HiMODE は CNN+ Transformer アーキテクチャに基づく新しい単分子全方位深度推定モデルである。 360deg単分子深度推定において,HiMODEは最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-04-11T11:11:43Z)
Sparse Depth Completion with Semantic Mesh Deformation Optimization [4.03103540543081]
本稿では、RGB画像とスパース深度サンプルを入力とし、完全な深度マップを予測し、最適化後のニューラルネットワークを提案する。評価結果は,屋内および屋外両方のデータセットにおいて,既存の成果を一貫して上回る結果となった。
論文参考訳（メタデータ） (2021-12-10T13:01:06Z)
Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文参考訳（メタデータ） (2021-07-28T11:00:47Z)
PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文参考訳（メタデータ） (2021-03-12T15:54:46Z)
CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文参考訳（メタデータ） (2020-12-18T09:42:54Z)
Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文参考訳（メタデータ） (2020-12-17T02:35:13Z)
A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文参考訳（メタデータ） (2020-07-14T04:40:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。