論文の概要: High-Resolution Synthetic RGB-D Datasets for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2305.01732v1
- Date: Tue, 2 May 2023 19:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 16:48:19.332771
- Title: High-Resolution Synthetic RGB-D Datasets for Monocular Depth Estimation
- Title(参考訳): 単眼深度推定のための高分解能合成RGB-Dデータセット
- Authors: Aakash Rajpal, Noshaba Cheema, Klaus Illgner-Fehns, Philipp Slusallek,
Sunil Jaiswal
- Abstract要約: 我々は、GTA-V(Grand Theft Auto)から1920×1080の高解像度合成深度データセット(HRSD)を生成する。
実験と解析のために,提案した合成データセットに基づいて,最先端の変換器に基づくMDEアルゴリズムであるDPTアルゴリズムを訓練し,異なるシーンにおける深度マップの精度を9%向上させる。
- 参考スコア(独自算出の注目度): 3.349875948009985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate depth maps are essential in various applications, such as autonomous
driving, scene reconstruction, point-cloud creation, etc. However,
monocular-depth estimation (MDE) algorithms often fail to provide enough
texture & sharpness, and also are inconsistent for homogeneous scenes. These
algorithms mostly use CNN or vision transformer-based architectures requiring
large datasets for supervised training. But, MDE algorithms trained on
available depth datasets do not generalize well and hence fail to perform
accurately in diverse real-world scenes. Moreover, the ground-truth depth maps
are either lower resolution or sparse leading to relatively inconsistent depth
maps. In general, acquiring a high-resolution ground truth dataset with
pixel-level precision for accurate depth prediction is an expensive, and
time-consuming challenge.
In this paper, we generate a high-resolution synthetic depth dataset (HRSD)
of dimension 1920 X 1080 from Grand Theft Auto (GTA-V), which contains 100,000
color images and corresponding dense ground truth depth maps. The generated
datasets are diverse and have scenes from indoors to outdoors, from homogeneous
surfaces to textures. For experiments and analysis, we train the DPT algorithm,
a state-of-the-art transformer-based MDE algorithm on the proposed synthetic
dataset, which significantly increases the accuracy of depth maps on different
scenes by 9 %. Since the synthetic datasets are of higher resolution, we
propose adding a feature extraction module in the transformer encoder and
incorporating an attention-based loss, further improving the accuracy by 15 %.
- Abstract(参考訳): 正確な深度マップは、自動運転、シーン再構築、ポイントクラウド作成など、さまざまなアプリケーションで不可欠である。
しかし、単分子深度推定(MDE)アルゴリズムはテクスチャとシャープネスを十分に提供できないことが多く、均質なシーンでは矛盾する。
これらのアルゴリズムは主に、教師付きトレーニングのために大きなデータセットを必要とするCNNまたはビジョントランスフォーマーベースのアーキテクチャを使用する。
しかし、利用可能な深度データセットに基づいてトレーニングされたMDEアルゴリズムは、うまく一般化せず、様々な現実世界のシーンで正確に機能しない。
さらに、地対深度マップは低分解能か疎弱であり、相対的に一貫性のない深度マップとなる。
一般に、正確な深度予測のためにピクセルレベルの精度で高解像度の地上真実データセットを取得することは、高価で時間を要する課題である。
本稿では,グランドセフトオート (gta-v) から1920×1080次元の高分解能合成深度データセット (hrsd) を作成し,10万色画像とそれに対応する密接な地下真理深度マップを含む。
生成されたデータセットは多様で、均質な表面からテクスチャまで、屋内から屋外まで様々である。
実験と解析のために,提案する合成データセット上で最先端のトランスフォーマーベースのmdeアルゴリズムであるdptアルゴリズムを訓練し,異なるシーンにおける深度マップの精度を9%向上させた。
合成データセットは高解像度であるため,変換器エンコーダに特徴抽出モジュールを追加し,注意に基づく損失を取り入れ,精度を15%向上する。
関連論文リスト
- Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution [55.9977636042469]
ビット深度圧縮は、微妙な変化のある領域で均一な深度表現を生成し、詳細情報の回復を妨げる。
密集したランダムノイズは、シーンのグローバルな幾何学的構造を推定する精度を低下させる。
圧縮深度マップ超解像のための新しいフレームワークGDNetを提案する。
論文 参考訳(メタデータ) (2024-11-05T16:37:30Z) - Shape2.5D: A Dataset of Texture-less Surfaces for Depth and Normals Estimation [12.757150641117077]
シェープ2.5Dは、このギャップに対処するために設計された、新しい大規模データセットである。
提案するデータセットは、3Dモデリングソフトウェアでレンダリングされた合成画像を含む。
また、深度カメラで撮影される4,672フレームからなる現実世界のサブセットも含まれている。
論文 参考訳(メタデータ) (2024-06-22T12:24:49Z) - SelfReDepth: Self-Supervised Real-Time Depth Restoration for Consumer-Grade Sensors [42.48726526726542]
SelfReDepthは、深度復元のための自己教師型ディープラーニング技術である。
複数のシーケンシャルな深度フレームとカラーデータを使用して、時間的コヒーレンスで高品質な深度ビデオを実現する。
我々の結果は、実世界のデータセット上での我々のアプローチのリアルタイムパフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-06-05T15:38:02Z) - Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - G2-MonoDepth: A General Framework of Generalized Depth Inference from
Monocular RGB+X Data [36.24020602917672]
単眼深度推定はロボットのシーン認識の基本的な問題である。
G2-MonoDepthは3つのサブタスクに適用される。
実世界のデータと合成データの両方で、SOTAのベースラインを常に上回る。
論文 参考訳(メタデータ) (2023-10-24T00:28:24Z) - RDFC-GAN: RGB-Depth Fusion CycleGAN for Indoor Depth Completion [28.634851863097953]
本稿では,RDFC-GANという2分岐のエンドツーエンド核融合ネットワークを提案する。
RGBと不完全な深度画像のペアを入力として、密集した深度マップを予測する。
第1分枝は、マンハッタン世界の仮定に固執することにより、エンコーダ・デコーダ構造を用いる。
もう一方のブランチでは、RGBイメージを詳細なテクスチャ化された深度マップに変換するのに適したRGB深度融合CycleGANが適用されている。
論文 参考訳(メタデータ) (2023-06-06T11:03:05Z) - BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and
Monocular Depth Estimation [60.34562823470874]
本稿では,DSR(Deep Map Super- resolution)とMDE(Monocular depth Estimation)の併用学習ネットワークを提案する。
1つは特徴符号化プロセスのために設計された高周波アテンションブリッジ(HABdg)で、これはDSRタスクを誘導するMDEタスクの高周波情報を学ぶ。
もう一つは、深度マップ再構築プロセス用に設計されたコンテンツガイダンスブリッジ(CGBdg)であり、MDEタスクのためにDSRタスクから学んだコンテンツガイダンスを提供する。
論文 参考訳(メタデータ) (2021-07-27T01:28:23Z) - Towards Unpaired Depth Enhancement and Super-Resolution in the Wild [121.96527719530305]
最先端のデータ駆動による深度マップの超解像法は、同じシーンの低解像度と高解像度の深度マップの登録ペアに依存している。
未経験データからの学習に基づく深度マップの強化について考察する。
論文 参考訳(メタデータ) (2021-05-25T16:19:16Z) - Towards Fast and Accurate Real-World Depth Super-Resolution: Benchmark
Dataset and Baseline [48.69396457721544]
深度写像スーパーリゾリューション(SR)の研究を促進するために,RGB-D-Dという大規模データセットを構築した。
本稿では、RGB画像から高周波成分を適応的に分解して深度マップSRを導出する高速深度マップ超解像(FDSR)ベースラインを提供する。
実世界のLR深度マップでは、より明確な境界を持つより正確なHR深度マップを作成でき、ある程度の精度で深度値誤差を補正できる。
論文 参考訳(メタデータ) (2021-04-13T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。