論文の概要: Deep Neural Networks for Accurate Depth Estimation with Latent Space Features
- arxiv url: http://arxiv.org/abs/2502.11777v1
- Date: Mon, 17 Feb 2025 13:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:08.738475
- Title: Deep Neural Networks for Accurate Depth Estimation with Latent Space Features
- Title(参考訳): 潜時空間特徴量を用いた高精度深度推定のためのディープニューラルネットワーク
- Authors: Siddiqui Muhammad Yasir, Hyunsik Ahn,
- Abstract要約: 本研究では,深部畳み込みニューラルネットワークにおける潜時空間特徴を利用した新しい深度推定フレームワークを提案する。
提案モデルでは,2つのエンコーダ・デコーダアーキテクチャを特徴とし,色から深度への変換と深度への変換が可能である。
フレームワークはNYU Depth V2データセットを使用して徹底的にテストされている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Depth estimation plays a pivotal role in advancing human-robot interactions, especially in indoor environments where accurate 3D scene reconstruction is essential for tasks like navigation and object handling. Monocular depth estimation, which relies on a single RGB camera, offers a more affordable solution compared to traditional methods that use stereo cameras or LiDAR. However, despite recent progress, many monocular approaches struggle with accurately defining depth boundaries, leading to less precise reconstructions. In response to these challenges, this study introduces a novel depth estimation framework that leverages latent space features within a deep convolutional neural network to enhance the precision of monocular depth maps. The proposed model features dual encoder-decoder architecture, enabling both color-to-depth and depth-to-depth transformations. This structure allows for refined depth estimation through latent space encoding. To further improve the accuracy of depth boundaries and local features, a new loss function is introduced. This function combines latent loss with gradient loss, helping the model maintain the integrity of depth boundaries. The framework is thoroughly tested using the NYU Depth V2 dataset, where it sets a new benchmark, particularly excelling in complex indoor scenarios. The results clearly show that this approach effectively reduces depth ambiguities and blurring, making it a promising solution for applications in human-robot interaction and 3D scene reconstruction.
- Abstract(参考訳): 深度推定は、特にナビゲーションやオブジェクトハンドリングといったタスクに正確な3Dシーン再構成が不可欠である屋内環境において、人間とロボットの相互作用を進める上で重要な役割を担っている。
単一のRGBカメラに依存している単眼深度推定は、ステレオカメラやLiDARを使用する従来の方法に比べ、より安価なソリューションを提供する。
しかし、近年の進歩にもかかわらず、多くの単分子的アプローチは深さ境界の正確な定義に苦慮し、精度の低い再構築に繋がる。
これらの課題に対応するために,本研究では,深部畳み込みニューラルネットワークにおける潜時空間の特徴を活用して,単分子深度マップの精度を向上させる新しい深度推定フレームワークを提案する。
提案モデルでは,2つのエンコーダ・デコーダアーキテクチャを特徴とし,色から深度への変換と深度への変換が可能である。
この構造は、潜時空間符号化による精密な深度推定を可能にする。
深度境界と局所特徴の精度をさらに向上するため,新たな損失関数を導入した。
この関数は遅延損失と勾配損失を結合し、モデルが深さ境界の完全性を維持するのに役立つ。
フレームワークはNYU Depth V2データセットを使用して徹底的にテストされている。
その結果,本手法は深度あいまいさやぼやけを効果的に軽減し,人間とロボットのインタラクションや3Dシーンの再構築に有効であることがわかった。
関連論文リスト
- Uncertainty-guided Optimal Transport in Depth Supervised Sparse-View 3D Gaussian [49.21866794516328]
3次元ガウシアンスプラッティングは、リアルタイムな新規ビュー合成において顕著な性能を示した。
これまでのアプローチでは、3Dガウスの訓練に奥行き監視を取り入れ、オーバーフィッティングを軽減してきた。
本研究では,3次元ガウスの深度分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:18:30Z) - GAM-Depth: Self-Supervised Indoor Depth Estimation Leveraging a
Gradient-Aware Mask and Semantic Constraints [12.426365333096264]
本稿では,勾配認識マスクと意味制約という,2つの新しいコンポーネントをベースとしたGAM-Depthを提案する。
グラデーション対応マスクは、キー領域とテクスチャレス領域の両方の適応的かつ堅牢な監視を可能にする。
室内における自己監督深度推定のセマンティック制約の導入は、物体の境界における深度差を改善する。
論文 参考訳(メタデータ) (2024-02-22T07:53:34Z) - Boosting Monocular 3D Object Detection with Object-Centric Auxiliary
Depth Supervision [13.593246617391266]
本稿では,RGB画像に基づく3D検出器を,深度推定タスクに類似した深度予測損失で共同でトレーニングすることにより,RGB画像に基づく3D検出器の強化手法を提案する。
新たな物体中心深度予測損失は,3次元物体検出において重要な前景物体周辺の深度に焦点をあてる。
我々の深度回帰モデルは、物体の3次元信頼度を表すために、深度の不確かさを予測するためにさらに訓練される。
論文 参考訳(メタデータ) (2022-10-29T11:32:28Z) - MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D
Object Detection [10.377424252002792]
モノクル3D物体検出は正確な深度回復能力に欠ける。
ディープニューラルネットワーク(DNN)は、高レベルの学習機能からモノクルディープセンシングを可能にする。
深度誤差をモデル化するための共同意味量と幾何学的コスト容積を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:54:10Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Weakly-Supervised Monocular Depth Estimationwith Resolution-Mismatched
Data [73.9872931307401]
単眼深度推定ネットワークをトレーニングするための弱教師付きフレームワークを提案する。
提案フレームワークは, 共有重量単分子深度推定ネットワークと蒸留用深度再構成ネットワークから構成される。
実験結果から,本手法は教師なし・半教師付き学習ベース方式よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-09-23T18:04:12Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - SelfDeco: Self-Supervised Monocular Depth Completion in Challenging
Indoor Environments [50.761917113239996]
自己教師付き単分子深度補完のための新しいアルゴリズムを提案する。
提案手法は,深度ラベルを含まない疎深度測定とそれに対応する単眼ビデオシーケンスのみを必要とするニューラルネットワークのトレーニングに基づく。
我々の自己監督アルゴリズムは、テクスチャのない領域、光沢のない透明な表面、非ランバートの表面、動く人々、より長く多様な深度範囲、複雑なエゴモーションによって捉えられたシーンを含む屋内環境に挑戦するために設計されている。
論文 参考訳(メタデータ) (2020-11-10T08:55:07Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。