論文の概要: Improving Monocular Depth Estimation by Leveraging Structural Awareness
and Complementary Datasets
- arxiv url: http://arxiv.org/abs/2007.11256v1
- Date: Wed, 22 Jul 2020 08:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 22:30:52.162360
- Title: Improving Monocular Depth Estimation by Leveraging Structural Awareness
and Complementary Datasets
- Title(参考訳): 構造認識と補足データセットの活用による単眼深度推定の改善
- Authors: Tian Chen, Shijie An, Yuan Zhang, Chongyang Ma, Huayan Wang, Xiaoyan
Guo, and Wen Zheng
- Abstract要約: 視覚特徴の空間的関係を利用するために,空間的注意ブロックを有する構造認識ニューラルネットワークを提案する。
第2に,一様点対に対する大域的局所的相対損失を導入し,予測における空間的制約を増大させる。
第3に、先行手法の障害事例の分析に基づいて、挑戦シーンの新たなHard Case (HC) Depthデータセットを収集します。
- 参考スコア(独自算出の注目度): 21.703238902823937
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular depth estimation plays a crucial role in 3D recognition and
understanding. One key limitation of existing approaches lies in their lack of
structural information exploitation, which leads to inaccurate spatial layout,
discontinuous surface, and ambiguous boundaries. In this paper, we tackle this
problem in three aspects. First, to exploit the spatial relationship of visual
features, we propose a structure-aware neural network with spatial attention
blocks. These blocks guide the network attention to global structures or local
details across different feature layers. Second, we introduce a global focal
relative loss for uniform point pairs to enhance spatial constraint in the
prediction, and explicitly increase the penalty on errors in depth-wise
discontinuous regions, which helps preserve the sharpness of estimation
results. Finally, based on analysis of failure cases for prior methods, we
collect a new Hard Case (HC) Depth dataset of challenging scenes, such as
special lighting conditions, dynamic objects, and tilted camera angles. The new
dataset is leveraged by an informed learning curriculum that mixes training
examples incrementally to handle diverse data distributions. Experimental
results show that our method outperforms state-of-the-art approaches by a large
margin in terms of both prediction accuracy on NYUDv2 dataset and
generalization performance on unseen datasets.
- Abstract(参考訳): 単眼深度推定は3次元認識と理解において重要な役割を果たす。
既存のアプローチの重要な制限の1つは、構造的情報活用の欠如であり、不正確な空間レイアウト、不連続な表面、曖昧な境界につながる。
本稿では,この問題を3つの側面から解決する。
まず,視覚特徴の空間的関係を利用するため,空間的注意ブロックを有する構造認識ニューラルネットワークを提案する。
これらのブロックは、ネットワークの注意を、さまざまな機能レイヤのグローバル構造や局所的な詳細に導く。
第2に,一様点対に対する大域的局所的相対損失を導入して,予測における空間的制約を増大させ,奥行き不連続領域における誤りに対するペナルティを明示的に増加させ,推定結果のシャープネスの維持に役立てる。
最後に, 先行手法の故障事例の分析に基づいて, 特殊な照明条件, 動的物体, 傾斜カメラアングルなど, 難易度の高いシーンの深度データセットを新たに収集する。
新しいデータセットはインフォームド・ラーニング・カリキュラムによって活用され、トレーニングサンプルを段階的に混合してさまざまなデータ分布を処理する。
実験の結果,nyudv2データセットの予測精度と未知データセットの一般化性能の両方において,最先端のアプローチを大差で上回った。
関連論文リスト
- 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - Spatially Guiding Unsupervised Semantic Segmentation Through
Depth-Informed Feature Distillation and Sampling [16.257915216763692]
本研究では,シーンの構造に関する情報を学習プロセスに組み込むことにより,教師なし学習の進歩を構築する。
本研究では,(1)特徴マップと深度マップを空間的に相関させて深度-特徴相関を学習し,シーンの構造に関する知識を誘導する。
次に,シーンの深度情報に対する3次元サンプリング技術を利用して,より効果的に特徴を抽出するために,最遠点サンプリングを実装した。
論文 参考訳(メタデータ) (2023-09-21T11:47:01Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth
Estimation with Cross-Task Distillation and Boundary Correction [9.215384107659665]
X-PDNetは平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークである。
我々は、境界回帰損失を増大させるために、基底真理境界を用いることの現在の限界を強調した。
境界領域分割を支援するために深度情報を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T14:27:54Z) - Joint Prediction of Monocular Depth and Structure using Planar and
Parallax Geometry [4.620624344434533]
教師付き学習深度推定法は、LiDARデータのような高品質な地上構造で訓練すると、優れた性能が得られる。
提案手法は,有望な平面とパララックス幾何学パイプラインの構造情報と深度情報を組み合わせたU-Net教師あり学習ネットワークの構築である。
我々のモデルは細い物体と縁の深さ予測に優れており、構造予測ベースラインと比較して、より頑健に機能する。
論文 参考訳(メタデータ) (2022-07-13T17:04:05Z) - Semi-Supervised Building Footprint Generation with Feature and Output
Consistency Training [17.6179873429447]
一貫性トレーニングを備えた最先端の半教師付きセマンティックセマンティクスネットワークは、この問題に対処するのに役立ちます。
ラベルなしサンプルのエンドツーエンドネットワークトレーニングにおいて,特徴と出力の整合性を統合することを提案する。
実験により, 提案手法により, より完全な構造を抽出できることが示唆された。
論文 参考訳(メタデータ) (2022-05-17T14:55:13Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields [50.435129905215284]
4次元光場処理と解析のための教師なし学習に基づく深度推定法を提案する。
光場データの特異な幾何学構造に関する基礎知識に基づいて,光場ビューのサブセット間の角度コヒーレンスを探索し,深度マップを推定する。
提案手法は,従来の手法と同等の精度で計算コストを低減した深度マップを作成できる。
論文 参考訳(メタデータ) (2021-06-06T06:19:50Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - Seismic horizon detection with neural networks [62.997667081978825]
本稿では,複数の実地震立方体上での地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
本研究の主な貢献は,複数実地震立方体における地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
論文 参考訳(メタデータ) (2020-01-10T11:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。