論文の概要: Multiple Prior Representation Learning for Self-Supervised Monocular Depth Estimation via Hybrid Transformer
- arxiv url: http://arxiv.org/abs/2406.08928v1
- Date: Thu, 13 Jun 2024 08:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:44:22.541219
- Title: Multiple Prior Representation Learning for Self-Supervised Monocular Depth Estimation via Hybrid Transformer
- Title(参考訳): ハイブリッド変圧器を用いた自己教師付き単眼深度推定のための多重事前表現学習
- Authors: Guodong Sun, Junjie Liu, Mingxuan Liu, Moyun Liu, Yang Zhang,
- Abstract要約: 自己教師付き単眼深度推定はラベル付きデータに頼ることなく深度情報を推定することを目的としている。
ラベル付き情報の欠如はモデルの表現に重大な課題をもたらし、シーンの複雑な詳細を正確に捉える能力を制限する。
空間的, 文脈的, 意味的次元にまたがる表現能力に, 複数の先行情報を活用する新しい自己教師付き単眼深度推定モデルを提案する。
- 参考スコア(独自算出の注目度): 12.486504395099022
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised monocular depth estimation aims to infer depth information without relying on labeled data. However, the lack of labeled information poses a significant challenge to the model's representation, limiting its ability to capture the intricate details of the scene accurately. Prior information can potentially mitigate this issue, enhancing the model's understanding of scene structure and texture. Nevertheless, solely relying on a single type of prior information often falls short when dealing with complex scenes, necessitating improvements in generalization performance. To address these challenges, we introduce a novel self-supervised monocular depth estimation model that leverages multiple priors to bolster representation capabilities across spatial, context, and semantic dimensions. Specifically, we employ a hybrid transformer and a lightweight pose network to obtain long-range spatial priors in the spatial dimension. Then, the context prior attention is designed to improve generalization, particularly in complex structures or untextured areas. In addition, semantic priors are introduced by leveraging semantic boundary loss, and semantic prior attention is supplemented, further refining the semantic features extracted by the decoder. Experiments on three diverse datasets demonstrate the effectiveness of the proposed model. It integrates multiple priors to comprehensively enhance the representation ability, improving the accuracy and reliability of depth estimation. Codes are available at: \url{https://github.com/MVME-HBUT/MPRLNet}
- Abstract(参考訳): 自己教師付き単眼深度推定はラベル付きデータに頼ることなく深度情報を推定することを目的としている。
しかし、ラベル付き情報の欠如はモデルの表現に重大な課題をもたらし、シーンの複雑な詳細を正確に捉える能力を制限する。
事前情報は、この問題を緩和し、モデルがシーン構造とテクスチャを理解することを強化する可能性がある。
それにもかかわらず、複雑なシーンを扱う場合、単一の事前情報にのみ依存することは、しばしば不足し、一般化性能の改善を必要とする。
これらの課題に対処するために,空間的,文脈的,意味的な次元にまたがる表現能力に,複数の先行情報を活用する,新しい自己教師付き単眼深度推定モデルを導入する。
具体的には,ハイブリッドトランスと軽量ポーズネットワークを用いて,空間次元における長距離空間先行値を求める。
次に、コンテキスト事前の注意は、特に複雑な構造や無テクスチャ領域において、一般化を改善するように設計されている。
さらにセマンティックな境界損失を利用してセマンティックな事前情報を導入し、セマンティックな事前注意を補足し、デコーダによって抽出されたセマンティックな特徴をさらに洗練する。
3つの多様なデータセットの実験は、提案モデルの有効性を示す。
複数の事前情報を統合して、表現能力を包括的に強化し、深さ推定の精度と信頼性を向上させる。
コードは以下の通り。 \url{https://github.com/MVME-HBUT/MPRLNet}
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation [33.018300966769516]
アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。
我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
論文 参考訳(メタデータ) (2022-11-20T20:00:21Z) - Depth Field Networks for Generalizable Multi-view Scene Representation [31.090289865520475]
我々は、ビューの多様性を高めるために、幾何学的帰納法として、一連の3次元データ拡張手法を導入し、暗黙的に多視点一貫したシーン表現を学習する。
我々のDeFiNe(Depth Field Networks)は、明示的な幾何学的制約を伴わずにステレオとビデオの深さを推定し、広いマージンでゼロショット領域の一般化を改善する。
論文 参考訳(メタデータ) (2022-07-28T17:59:31Z) - BinsFormer: Revisiting Adaptive Bins for Monocular Depth Estimation [46.678016537618845]
本稿では,分類回帰に基づく深度推定に適したBinsFormerという新しいフレームワークを提案する。
1)適応的なビンの適切な生成、2)確率分布とビン予測の間の十分な相互作用である。
KITTI、NYU、SUN RGB-Dデータセットの実験は、BinsFormerが最先端のモノクル深度推定法をはるかに上回っていることを示している。
論文 参考訳(メタデータ) (2022-04-03T04:38:02Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。