論文の概要: Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for
Consistent Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2110.08192v1
- Date: Fri, 15 Oct 2021 16:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 14:22:04.125230
- Title: Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for
Consistent Self-Supervised Monocular Depth Estimation
- Title(参考訳): 幾何学的注視:一貫した自己監督単眼深度推定のための空間的時間的注視法
- Authors: Patrick Ruhkamp, Daoyi Gao, Hanzhi Chen, Nassir Navab, Benjamin Busam
- Abstract要約: 本稿では,近年普及している変圧器アーキテクチャと新たな正規化損失定式化を併用して,深さの整合性を改善する方法について検討する。
本稿では,局所的な幾何学的情報を集約するために,粗い深度予測を関連付ける空間的注意モジュールを提案する。
新たな時間的注意機構は、連続した画像間のグローバルコンテキストにおける局所的幾何学情報をさらに処理する。
- 参考スコア(独自算出の注目度): 42.249533907879126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring geometrically consistent dense 3D scenes across a tuple of
temporally consecutive images remains challenging for self-supervised monocular
depth prediction pipelines. This paper explores how the increasingly popular
transformer architecture, together with novel regularized loss formulations,
can improve depth consistency while preserving accuracy. We propose a spatial
attention module that correlates coarse depth predictions to aggregate local
geometric information. A novel temporal attention mechanism further processes
the local geometric information in a global context across consecutive images.
Additionally, we introduce geometric constraints between frames regularized by
photometric cycle consistency. By combining our proposed regularization and the
novel spatial-temporal-attention module we fully leverage both the geometric
and appearance-based consistency across monocular frames. This yields
geometrically meaningful attention and improves temporal depth stability and
accuracy compared to previous methods.
- Abstract(参考訳): 時間的に連続した画像のタプルにわたって幾何学的に一貫性のある密集した3dシーンを推測することは、自己教師付き単眼深度予測パイプラインでは困難である。
本稿では,新しい正規化損失定式化とともに,近年普及しているトランスフォーマーアーキテクチャが,精度を維持しながら深さの整合性を改善する方法について検討する。
本研究では,局所幾何情報を集約するために,粗い深さの予測を関連付ける空間的注意モジュールを提案する。
新たな時間的注意機構は、連続した画像間のグローバルコンテキストにおける局所幾何学情報をさらに処理する。
さらに、光度周期の整合性によって正規化されるフレーム間の幾何的制約を導入する。
提案した正規化と新しい空間時間アテンションモジュールを組み合わせることで、単眼フレーム間の幾何学的および外観的整合性を完全に活用できる。
これは幾何学的に意味のある注意を与え、従来の方法と比較して時間的深さの安定性と精度を向上させる。
関連論文リスト
- RDG-GS: Relative Depth Guidance with Gaussian Splatting for Real-time Sparse-View 3D Rendering [13.684624443214599]
本稿では,3次元ガウススプラッティングに基づく相対深度誘導を用いた新しいスパースビュー3DレンダリングフレームワークRDG-GSを提案する。
中心となる革新は、相対的な深度誘導を利用してガウス場を洗練させ、ビュー一貫性のある空間幾何学的表現に向けてそれを操ることである。
Mip-NeRF360, LLFF, DTU, Blenderに関する広範な実験を通じて、RDG-GSは最先端のレンダリング品質と効率を実証している。
論文 参考訳(メタデータ) (2025-01-19T16:22:28Z) - Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z) - Geometric Point Attention Transformer for 3D Shape Reassembly [17.34739330880715]
本稿では,幾何学的関係に関する推論の課題に対処するネットワークを提案する。
我々は大域的な形状情報と局所的な対幾何学的特徴と、各部分の回転ベクトルや変換ベクトルとして表されるポーズを統合する。
意味的および幾何学的組立作業におけるモデルの評価を行い、絶対的なポーズ推定において従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-26T15:29:38Z) - ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction [50.07671826433922]
微妙な幾何を同時に復元し、異なる特徴を持つ領域をまたいだ滑らかさを保つことは自明ではない。
そこで我々は,ND-SDFを提案する。ND-SDFは,通常のシーンとそれ以前のシーンの角偏差を表す正規偏向場を学習する。
本手法は, 壁面や床面などのスムーズなテクスチャ構造を得るだけでなく, 複雑な構造の幾何学的詳細も保存する。
論文 参考訳(メタデータ) (2024-08-22T17:59:01Z) - DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。
複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文 参考訳(メタデータ) (2024-05-27T08:55:17Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [54.13459226728249]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - Learning Monocular Depth in Dynamic Environment via Context-aware
Temporal Attention [9.837958401514141]
マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。
提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-12T11:48:32Z) - A Unifying and Canonical Description of Measure-Preserving Diffusions [60.59592461429012]
ユークリッド空間における測度保存拡散の完全なレシピは、最近、いくつかのMCMCアルゴリズムを単一のフレームワークに統合した。
我々は、この構成を任意の多様体に改善し一般化する幾何学理論を開発する。
論文 参考訳(メタデータ) (2021-05-06T17:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。