論文の概要: High-Resolution Synthetic RGB-D Datasets for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2305.01732v1
- Date: Tue, 2 May 2023 19:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 16:48:19.332771
- Title: High-Resolution Synthetic RGB-D Datasets for Monocular Depth Estimation
- Title(参考訳): 単眼深度推定のための高分解能合成RGB-Dデータセット
- Authors: Aakash Rajpal, Noshaba Cheema, Klaus Illgner-Fehns, Philipp Slusallek,
Sunil Jaiswal
- Abstract要約: 我々は、GTA-V(Grand Theft Auto)から1920×1080の高解像度合成深度データセット(HRSD)を生成する。
実験と解析のために,提案した合成データセットに基づいて,最先端の変換器に基づくMDEアルゴリズムであるDPTアルゴリズムを訓練し,異なるシーンにおける深度マップの精度を9%向上させる。
- 参考スコア(独自算出の注目度): 3.349875948009985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate depth maps are essential in various applications, such as autonomous
driving, scene reconstruction, point-cloud creation, etc. However,
monocular-depth estimation (MDE) algorithms often fail to provide enough
texture & sharpness, and also are inconsistent for homogeneous scenes. These
algorithms mostly use CNN or vision transformer-based architectures requiring
large datasets for supervised training. But, MDE algorithms trained on
available depth datasets do not generalize well and hence fail to perform
accurately in diverse real-world scenes. Moreover, the ground-truth depth maps
are either lower resolution or sparse leading to relatively inconsistent depth
maps. In general, acquiring a high-resolution ground truth dataset with
pixel-level precision for accurate depth prediction is an expensive, and
time-consuming challenge.
In this paper, we generate a high-resolution synthetic depth dataset (HRSD)
of dimension 1920 X 1080 from Grand Theft Auto (GTA-V), which contains 100,000
color images and corresponding dense ground truth depth maps. The generated
datasets are diverse and have scenes from indoors to outdoors, from homogeneous
surfaces to textures. For experiments and analysis, we train the DPT algorithm,
a state-of-the-art transformer-based MDE algorithm on the proposed synthetic
dataset, which significantly increases the accuracy of depth maps on different
scenes by 9 %. Since the synthetic datasets are of higher resolution, we
propose adding a feature extraction module in the transformer encoder and
incorporating an attention-based loss, further improving the accuracy by 15 %.
- Abstract(参考訳): 正確な深度マップは、自動運転、シーン再構築、ポイントクラウド作成など、さまざまなアプリケーションで不可欠である。
しかし、単分子深度推定(MDE)アルゴリズムはテクスチャとシャープネスを十分に提供できないことが多く、均質なシーンでは矛盾する。
これらのアルゴリズムは主に、教師付きトレーニングのために大きなデータセットを必要とするCNNまたはビジョントランスフォーマーベースのアーキテクチャを使用する。
しかし、利用可能な深度データセットに基づいてトレーニングされたMDEアルゴリズムは、うまく一般化せず、様々な現実世界のシーンで正確に機能しない。
さらに、地対深度マップは低分解能か疎弱であり、相対的に一貫性のない深度マップとなる。
一般に、正確な深度予測のためにピクセルレベルの精度で高解像度の地上真実データセットを取得することは、高価で時間を要する課題である。
本稿では,グランドセフトオート (gta-v) から1920×1080次元の高分解能合成深度データセット (hrsd) を作成し,10万色画像とそれに対応する密接な地下真理深度マップを含む。
生成されたデータセットは多様で、均質な表面からテクスチャまで、屋内から屋外まで様々である。
実験と解析のために,提案する合成データセット上で最先端のトランスフォーマーベースのmdeアルゴリズムであるdptアルゴリズムを訓練し,異なるシーンにおける深度マップの精度を9%向上させた。
合成データセットは高解像度であるため,変換器エンコーダに特徴抽出モジュールを追加し,注意に基づく損失を取り入れ,精度を15%向上する。
関連論文リスト
- G2-MonoDepth: A General Framework of Generalized Depth Inference from
Monocular RGB+X Data [36.24020602917672]
単眼深度推定はロボットのシーン認識の基本的な問題である。
G2-MonoDepthは3つのサブタスクに適用される。
実世界のデータと合成データの両方で、SOTAのベースラインを常に上回る。
論文 参考訳(メタデータ) (2023-10-24T00:28:24Z) - RayMVSNet++: Learning Ray-based 1D Implicit Fields for Accurate
Multi-View Stereo [21.209964556493368]
RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
RayMVSNet++はScanNetデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-16T02:10:47Z) - TransCG: A Large-Scale Real-World Dataset for Transparent Object Depth
Completion and Grasping [46.6058840385155]
我々は、透明な物体深度を補完する大規模な実世界のデータセットをコントリビュートする。
データセットには、130の異なるシーンから57,715枚のRGB-D画像が含まれている。
本稿では,RGB画像と不正確な深度マップを入力とし,精細化された深度マップを出力するエンド・ツー・エンドの深度補完ネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-17T06:50:20Z) - BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and
Monocular Depth Estimation [60.34562823470874]
本稿では,DSR(Deep Map Super- resolution)とMDE(Monocular depth Estimation)の併用学習ネットワークを提案する。
1つは特徴符号化プロセスのために設計された高周波アテンションブリッジ(HABdg)で、これはDSRタスクを誘導するMDEタスクの高周波情報を学ぶ。
もう一つは、深度マップ再構築プロセス用に設計されたコンテンツガイダンスブリッジ(CGBdg)であり、MDEタスクのためにDSRタスクから学んだコンテンツガイダンスを提供する。
論文 参考訳(メタデータ) (2021-07-27T01:28:23Z) - Towards Unpaired Depth Enhancement and Super-Resolution in the Wild [121.96527719530305]
最先端のデータ駆動による深度マップの超解像法は、同じシーンの低解像度と高解像度の深度マップの登録ペアに依存している。
未経験データからの学習に基づく深度マップの強化について考察する。
論文 参考訳(メタデータ) (2021-05-25T16:19:16Z) - Towards Fast and Accurate Real-World Depth Super-Resolution: Benchmark
Dataset and Baseline [48.69396457721544]
深度写像スーパーリゾリューション(SR)の研究を促進するために,RGB-D-Dという大規模データセットを構築した。
本稿では、RGB画像から高周波成分を適応的に分解して深度マップSRを導出する高速深度マップ超解像(FDSR)ベースラインを提供する。
実世界のLR深度マップでは、より明確な境界を持つより正確なHR深度マップを作成でき、ある程度の精度で深度値誤差を補正できる。
論文 参考訳(メタデータ) (2021-04-13T13:27:26Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Efficient Depth Completion Using Learned Bases [94.0808155168311]
深度補正のための新しい大域的幾何制約を提案する。
低次元部分空間上によく配置される深さ写像を仮定することにより、高密度深度写像は全解像度の主深度基底の重み付け和で近似することができる。
論文 参考訳(メタデータ) (2020-12-02T11:57:37Z) - Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for
3D Reconstruction [12.728154351588053]
マルチビュー画像から3次元再構成を行うための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
高分解能深度を実現するために粗粒度深度推論戦略を導入する。
論文 参考訳(メタデータ) (2020-11-25T13:34:11Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。