論文の概要: Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for
Consistent Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2110.08192v1
- Date: Fri, 15 Oct 2021 16:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 14:22:04.125230
- Title: Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for
Consistent Self-Supervised Monocular Depth Estimation
- Title(参考訳): 幾何学的注視:一貫した自己監督単眼深度推定のための空間的時間的注視法
- Authors: Patrick Ruhkamp, Daoyi Gao, Hanzhi Chen, Nassir Navab, Benjamin Busam
- Abstract要約: 本稿では,近年普及している変圧器アーキテクチャと新たな正規化損失定式化を併用して,深さの整合性を改善する方法について検討する。
本稿では,局所的な幾何学的情報を集約するために,粗い深度予測を関連付ける空間的注意モジュールを提案する。
新たな時間的注意機構は、連続した画像間のグローバルコンテキストにおける局所的幾何学情報をさらに処理する。
- 参考スコア(独自算出の注目度): 42.249533907879126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring geometrically consistent dense 3D scenes across a tuple of
temporally consecutive images remains challenging for self-supervised monocular
depth prediction pipelines. This paper explores how the increasingly popular
transformer architecture, together with novel regularized loss formulations,
can improve depth consistency while preserving accuracy. We propose a spatial
attention module that correlates coarse depth predictions to aggregate local
geometric information. A novel temporal attention mechanism further processes
the local geometric information in a global context across consecutive images.
Additionally, we introduce geometric constraints between frames regularized by
photometric cycle consistency. By combining our proposed regularization and the
novel spatial-temporal-attention module we fully leverage both the geometric
and appearance-based consistency across monocular frames. This yields
geometrically meaningful attention and improves temporal depth stability and
accuracy compared to previous methods.
- Abstract(参考訳): 時間的に連続した画像のタプルにわたって幾何学的に一貫性のある密集した3dシーンを推測することは、自己教師付き単眼深度予測パイプラインでは困難である。
本稿では,新しい正規化損失定式化とともに,近年普及しているトランスフォーマーアーキテクチャが,精度を維持しながら深さの整合性を改善する方法について検討する。
本研究では,局所幾何情報を集約するために,粗い深さの予測を関連付ける空間的注意モジュールを提案する。
新たな時間的注意機構は、連続した画像間のグローバルコンテキストにおける局所幾何学情報をさらに処理する。
さらに、光度周期の整合性によって正規化されるフレーム間の幾何的制約を導入する。
提案した正規化と新しい空間時間アテンションモジュールを組み合わせることで、単眼フレーム間の幾何学的および外観的整合性を完全に活用できる。
これは幾何学的に意味のある注意を与え、従来の方法と比較して時間的深さの安定性と精度を向上させる。
関連論文リスト
- ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction [50.07671826433922]
微妙な幾何を同時に復元し、異なる特徴を持つ領域をまたいだ滑らかさを保つことは自明ではない。
そこで我々は,ND-SDFを提案する。ND-SDFは,通常のシーンとそれ以前のシーンの角偏差を表す正規偏向場を学習する。
本手法は, 壁面や床面などのスムーズなテクスチャ構造を得るだけでなく, 複雑な構造の幾何学的詳細も保存する。
論文 参考訳(メタデータ) (2024-08-22T17:59:01Z) - DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。
本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。
本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文 参考訳(メタデータ) (2024-06-26T14:29:05Z) - DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。
複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文 参考訳(メタデータ) (2024-05-27T08:55:17Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [54.13459226728249]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - Learning Monocular Depth in Dynamic Environment via Context-aware
Temporal Attention [9.837958401514141]
マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。
提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-12T11:48:32Z) - Few-shot Non-line-of-sight Imaging with Signal-surface Collaborative
Regularization [18.466941045530408]
非視線イメージング技術は、多重反射光からターゲットを再構成することを目的としている。
最小限の測定回数でノイズロバストを再現する信号表面の協調正規化フレームワークを提案する。
我々のアプローチは、救助活動や自律運転といったリアルタイム非視線画像アプリケーションにおいて大きな可能性を秘めている。
論文 参考訳(メタデータ) (2022-11-21T11:19:20Z) - A Unifying and Canonical Description of Measure-Preserving Diffusions [60.59592461429012]
ユークリッド空間における測度保存拡散の完全なレシピは、最近、いくつかのMCMCアルゴリズムを単一のフレームワークに統合した。
我々は、この構成を任意の多様体に改善し一般化する幾何学理論を開発する。
論文 参考訳(メタデータ) (2021-05-06T17:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。