Fugu-MT 論文翻訳(概要): Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets

論文の概要: Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets

arxiv url: http://arxiv.org/abs/2007.11256v1
Date: Wed, 22 Jul 2020 08:21:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 22:30:52.162360
Title: Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets
Title（参考訳）: 構造認識と補足データセットの活用による単眼深度推定の改善
Authors: Tian Chen, Shijie An, Yuan Zhang, Chongyang Ma, Huayan Wang, Xiaoyan Guo, and Wen Zheng
Abstract要約: 視覚特徴の空間的関係を利用するために,空間的注意ブロックを有する構造認識ニューラルネットワークを提案する。第2に,一様点対に対する大域的局所的相対損失を導入し,予測における空間的制約を増大させる。第3に、先行手法の障害事例の分析に基づいて、挑戦シーンの新たなHard Case (HC) Depthデータセットを収集します。
参考スコア（独自算出の注目度）: 21.703238902823937
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Monocular depth estimation plays a crucial role in 3D recognition and understanding. One key limitation of existing approaches lies in their lack of structural information exploitation, which leads to inaccurate spatial layout, discontinuous surface, and ambiguous boundaries. In this paper, we tackle this problem in three aspects. First, to exploit the spatial relationship of visual features, we propose a structure-aware neural network with spatial attention blocks. These blocks guide the network attention to global structures or local details across different feature layers. Second, we introduce a global focal relative loss for uniform point pairs to enhance spatial constraint in the prediction, and explicitly increase the penalty on errors in depth-wise discontinuous regions, which helps preserve the sharpness of estimation results. Finally, based on analysis of failure cases for prior methods, we collect a new Hard Case (HC) Depth dataset of challenging scenes, such as special lighting conditions, dynamic objects, and tilted camera angles. The new dataset is leveraged by an informed learning curriculum that mixes training examples incrementally to handle diverse data distributions. Experimental results show that our method outperforms state-of-the-art approaches by a large margin in terms of both prediction accuracy on NYUDv2 dataset and generalization performance on unseen datasets.
Abstract（参考訳）: 単眼深度推定は3次元認識と理解において重要な役割を果たす。既存のアプローチの重要な制限の1つは、構造的情報活用の欠如であり、不正確な空間レイアウト、不連続な表面、曖昧な境界につながる。本稿では,この問題を3つの側面から解決する。まず,視覚特徴の空間的関係を利用するため,空間的注意ブロックを有する構造認識ニューラルネットワークを提案する。これらのブロックは、ネットワークの注意を、さまざまな機能レイヤのグローバル構造や局所的な詳細に導く。第2に,一様点対に対する大域的局所的相対損失を導入して,予測における空間的制約を増大させ,奥行き不連続領域における誤りに対するペナルティを明示的に増加させ,推定結果のシャープネスの維持に役立てる。最後に, 先行手法の故障事例の分析に基づいて, 特殊な照明条件, 動的物体, 傾斜カメラアングルなど, 難易度の高いシーンの深度データセットを新たに収集する。新しいデータセットはインフォームド・ラーニング・カリキュラムによって活用され、トレーニングサンプルを段階的に混合してさまざまなデータ分布を処理する。実験の結果,nyudv2データセットの予測精度と未知データセットの一般化性能の両方において,最先端のアプローチを大差で上回った。

関連論文リスト

Object Affordance Recognition and Grounding via Multi-scale Cross-modal Representation Learning [64.32618490065117]
Embodied AIの中核的な問題は、人間がしているように、観察からオブジェクト操作を学ぶことだ。本稿では,3D表現の可利用性を学習し,段階的推論戦略を採用する新しい手法を提案する。提案手法の有効性を実証し,アベイランスグラウンドと分類の両面での性能向上を示した。
論文参考訳（メタデータ） (2025-08-02T04:14:18Z)
Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。 Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文参考訳（メタデータ） (2025-05-27T05:17:49Z)
Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。 PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文参考訳（メタデータ） (2024-11-22T05:41:00Z)
TopoFR: A Closer Look at Topology Alignment on Face Recognition [58.45515807380505]
PTSAと呼ばれるトポロジカル構造アライメント戦略とSDEという硬質試料マイニング戦略を利用する新しいFRモデルであるTopoFRを提案する。 PTSAは永続ホモロジーを用いて入力空間と潜在空間の位相構造を整列し、構造情報を効果的に保存し、FRモデルの一般化性能を向上させる。一般的な顔のベンチマーク実験の結果は、最先端の手法よりもTopoFRの方が優れていることを示している。
論文参考訳（メタデータ） (2024-10-14T14:58:30Z)
Neural Surface Reconstruction from Sparse Views Using Epipolar Geometry [4.659427498118277]
再建過程にエピポーラ情報を組み込んだ新しい手法であるEpiSを提案する。提案手法は,コストボリュームから複数のソースビューから抽出したエピポーラ特徴に粗い情報を集約する。スパース条件における情報ギャップに対処するため,グローバルおよび局所正規化手法を用いて単眼深度推定から深度情報を統合する。
論文参考訳（メタデータ） (2024-06-06T17:47:48Z)
DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文参考訳（メタデータ） (2024-05-27T08:55:17Z)
2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。 IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文参考訳（メタデータ） (2023-11-27T07:57:29Z)
Robust Geometry-Preserving Depth Estimation Using Differentiable Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文参考訳（メタデータ） (2023-09-18T12:36:39Z)
X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth Estimation with Cross-Task Distillation and Boundary Correction [9.215384107659665]
X-PDNetは平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークである。我々は、境界回帰損失を増大させるために、基底真理境界を用いることの現在の限界を強調した。境界領域分割を支援するために深度情報を利用する新しい手法を提案する。
論文参考訳（メタデータ） (2023-09-15T14:27:54Z)
Semi-Supervised Building Footprint Generation with Feature and Output Consistency Training [17.6179873429447]
一貫性トレーニングを備えた最先端の半教師付きセマンティックセマンティクスネットワークは、この問題に対処するのに役立ちます。ラベルなしサンプルのエンドツーエンドネットワークトレーニングにおいて,特徴と出力の整合性を統合することを提案する。実験により, 提案手法により, より完全な構造を抽出できることが示唆された。
論文参考訳（メタデータ） (2022-05-17T14:55:13Z)
Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文参考訳（メタデータ） (2021-07-29T16:30:33Z)
Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields [50.435129905215284]
4次元光場処理と解析のための教師なし学習に基づく深度推定法を提案する。光場データの特異な幾何学構造に関する基礎知識に基づいて,光場ビューのサブセット間の角度コヒーレンスを探索し,深度マップを推定する。提案手法は,従来の手法と同等の精度で計算コストを低減した深度マップを作成できる。
論文参考訳（メタデータ） (2021-06-06T06:19:50Z)
Seismic horizon detection with neural networks [62.997667081978825]
本稿では,複数の実地震立方体上での地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。本研究の主な貢献は,複数実地震立方体における地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
論文参考訳（メタデータ） (2020-01-10T11:30:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。