論文の概要: Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for
Consistent Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2110.08192v1
- Date: Fri, 15 Oct 2021 16:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 14:22:04.125230
- Title: Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for
Consistent Self-Supervised Monocular Depth Estimation
- Title(参考訳): 幾何学的注視:一貫した自己監督単眼深度推定のための空間的時間的注視法
- Authors: Patrick Ruhkamp, Daoyi Gao, Hanzhi Chen, Nassir Navab, Benjamin Busam
- Abstract要約: 本稿では,近年普及している変圧器アーキテクチャと新たな正規化損失定式化を併用して,深さの整合性を改善する方法について検討する。
本稿では,局所的な幾何学的情報を集約するために,粗い深度予測を関連付ける空間的注意モジュールを提案する。
新たな時間的注意機構は、連続した画像間のグローバルコンテキストにおける局所的幾何学情報をさらに処理する。
- 参考スコア(独自算出の注目度): 42.249533907879126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring geometrically consistent dense 3D scenes across a tuple of
temporally consecutive images remains challenging for self-supervised monocular
depth prediction pipelines. This paper explores how the increasingly popular
transformer architecture, together with novel regularized loss formulations,
can improve depth consistency while preserving accuracy. We propose a spatial
attention module that correlates coarse depth predictions to aggregate local
geometric information. A novel temporal attention mechanism further processes
the local geometric information in a global context across consecutive images.
Additionally, we introduce geometric constraints between frames regularized by
photometric cycle consistency. By combining our proposed regularization and the
novel spatial-temporal-attention module we fully leverage both the geometric
and appearance-based consistency across monocular frames. This yields
geometrically meaningful attention and improves temporal depth stability and
accuracy compared to previous methods.
- Abstract(参考訳): 時間的に連続した画像のタプルにわたって幾何学的に一貫性のある密集した3dシーンを推測することは、自己教師付き単眼深度予測パイプラインでは困難である。
本稿では,新しい正規化損失定式化とともに,近年普及しているトランスフォーマーアーキテクチャが,精度を維持しながら深さの整合性を改善する方法について検討する。
本研究では,局所幾何情報を集約するために,粗い深さの予測を関連付ける空間的注意モジュールを提案する。
新たな時間的注意機構は、連続した画像間のグローバルコンテキストにおける局所幾何学情報をさらに処理する。
さらに、光度周期の整合性によって正規化されるフレーム間の幾何的制約を導入する。
提案した正規化と新しい空間時間アテンションモジュールを組み合わせることで、単眼フレーム間の幾何学的および外観的整合性を完全に活用できる。
これは幾何学的に意味のある注意を与え、従来の方法と比較して時間的深さの安定性と精度を向上させる。
関連論文リスト
- Object-level Geometric Structure Preserving for Natural Image Stitching [14.039603036741278]
我々は、Global similarity Priorに基づく画像内のOBJectレベルの構造を保護します。
我々は、OBJ-GSPで歪みやゴーストを緩和する。
本手法は画像縫合における最先端のベンチマークを新たに確立する。
論文 参考訳(メタデータ) (2024-02-20T02:54:03Z) - Adaptive Surface Normal Constraint for Geometric Estimation from
Monocular Images [59.00008891108098]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - Learning Monocular Depth in Dynamic Environment via Context-aware
Temporal Attention [9.837958401514141]
マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。
提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-12T11:48:32Z) - SST: Real-time End-to-end Monocular 3D Reconstruction via Sparse
Spatial-Temporal Guidance [71.3027345302485]
リアルタイムモノクル3D再構成は未解決の課題である。
視覚SLAMシステムからのスパース推定点を利用したエンドツーエンドの3D再構成ネットワークSSTを提案する。
SSTは、59FPSで高い推論速度を維持しながら、最先端の競合他社よりも優れています。
論文 参考訳(メタデータ) (2022-12-13T12:17:13Z) - Few-shot Non-line-of-sight Imaging with Signal-surface Collaborative
Regularization [18.466941045530408]
非視線イメージング技術は、多重反射光からターゲットを再構成することを目的としている。
最小限の測定回数でノイズロバストを再現する信号表面の協調正規化フレームワークを提案する。
我々のアプローチは、救助活動や自律運転といったリアルタイム非視線画像アプリケーションにおいて大きな可能性を秘めている。
論文 参考訳(メタデータ) (2022-11-21T11:19:20Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - A Unifying and Canonical Description of Measure-Preserving Diffusions [60.59592461429012]
ユークリッド空間における測度保存拡散の完全なレシピは、最近、いくつかのMCMCアルゴリズムを単一のフレームワークに統合した。
我々は、この構成を任意の多様体に改善し一般化する幾何学理論を開発する。
論文 参考訳(メタデータ) (2021-05-06T17:36:55Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Unsupervised Learning of Global Registration of Temporal Sequence of
Point Clouds [16.019588704177288]
点雲のグローバルな登録は、2次元または3次元の点集合の配列の最適なアライメントを見つけることを目的としている。
本稿では,現在ある深層学習技術を利用して,点雲の時間的シーケンスからグローバルな登録を教師なし学習する手法を提案する。
論文 参考訳(メタデータ) (2020-06-17T06:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。