論文の概要: PatchRefiner: Leveraging Synthetic Data for Real-Domain High-Resolution Monocular Metric Depth Estimation
- arxiv url: http://arxiv.org/abs/2406.06679v1
- Date: Mon, 10 Jun 2024 18:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 20:35:12.749755
- Title: PatchRefiner: Leveraging Synthetic Data for Real-Domain High-Resolution Monocular Metric Depth Estimation
- Title(参考訳): PatchRefiner: リアルタイム高分解能単分子深さ推定のための合成データを活用する
- Authors: Zhenyu Li, Shariq Farooq Bhat, Peter Wonka,
- Abstract要約: PatchRefinerは、高分解能な実領域入力を目的としたメートル法単一画像深度推定のための高度なフレームワークである。
PatchRefinerはタイルベースの手法を採用し、高分解能深度推定を精錬プロセスとして再認識する。
我々の評価は、PatchRefinerの優れたパフォーマンスを示し、Unreal4KStereoデータセットの既存のベンチマークを著しく上回っている。
- 参考スコア(独自算出の注目度): 42.29746147944489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces PatchRefiner, an advanced framework for metric single image depth estimation aimed at high-resolution real-domain inputs. While depth estimation is crucial for applications such as autonomous driving, 3D generative modeling, and 3D reconstruction, achieving accurate high-resolution depth in real-world scenarios is challenging due to the constraints of existing architectures and the scarcity of detailed real-world depth data. PatchRefiner adopts a tile-based methodology, reconceptualizing high-resolution depth estimation as a refinement process, which results in notable performance enhancements. Utilizing a pseudo-labeling strategy that leverages synthetic data, PatchRefiner incorporates a Detail and Scale Disentangling (DSD) loss to enhance detail capture while maintaining scale accuracy, thus facilitating the effective transfer of knowledge from synthetic to real-world data. Our extensive evaluations demonstrate PatchRefiner's superior performance, significantly outperforming existing benchmarks on the Unreal4KStereo dataset by 18.1% in terms of the root mean squared error (RMSE) and showing marked improvements in detail accuracy and consistent scale estimation on diverse real-world datasets like CityScape, ScanNet++, and ETH3D.
- Abstract(参考訳): 本稿では,高分解能な実領域入力を目的とした1次元画像深度推定のための高度なフレームワークであるPatchRefinerを紹介する。
深度推定は, 自律運転, 3次元生成モデル, 3次元再構成などのアプリケーションにおいて重要であるが, 既存のアーキテクチャの制約や, 詳細な現実世界の深度データの不足により, 現実のシナリオにおいて正確な高精度の深度を達成することは困難である。
PatchRefinerはタイルベースの手法を採用し、高分解能深度推定を洗練プロセスとして再認識し、顕著な性能向上をもたらす。
PatchRefinerは、合成データを活用する擬似ラベル戦略を利用することで、Detail and Scale Disentangling(DSD)損失を取り入れ、スケール精度を維持しながら詳細なキャプチャを強化し、合成データから実世界のデータへの知識の効果的な伝達を容易にする。
我々の広範な評価は、PatchRefinerの優れた性能を示し、Unreal4KStereoデータセットの既存のベンチマークを18.1%上回り、CityScape、ScanNet++、ETH3Dといった様々な実世界のデータセットの精度と一貫したスケール推定の精度が著しく向上したことを示している。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Domain-Transferred Synthetic Data Generation for Improving Monocular Depth Estimation [9.812476193015488]
本稿では,3次元合成環境とCycleGANドメイン転送を用いたシミュレーションデータ生成手法を提案する。
本研究では,DenseDepth構造に基づく深度推定モデルを実データと模擬データの異なるトレーニングセットを用いて学習することにより,このデータ生成手法を,人気のNYUDepth V2データセットと比較する。
本稿では,Huskyロボットによる新たに収集した画像とLiDAR深度データを用いたモデルの性能評価を行い,GAN変換データを実世界のデータ,特に深度推定の有効な代替手段として有効であることを示す。
論文 参考訳(メタデータ) (2024-05-02T09:21:10Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Joint Prediction of Monocular Depth and Structure using Planar and
Parallax Geometry [4.620624344434533]
教師付き学習深度推定法は、LiDARデータのような高品質な地上構造で訓練すると、優れた性能が得られる。
提案手法は,有望な平面とパララックス幾何学パイプラインの構造情報と深度情報を組み合わせたU-Net教師あり学習ネットワークの構築である。
我々のモデルは細い物体と縁の深さ予測に優れており、構造予測ベースラインと比較して、より頑健に機能する。
論文 参考訳(メタデータ) (2022-07-13T17:04:05Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。