Fugu-MT 論文翻訳(概要): Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for Consistent Self-Supervised Monocular Depth Estimation

論文の概要: Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for Consistent Self-Supervised Monocular Depth Estimation

arxiv url: http://arxiv.org/abs/2110.08192v1
Date: Fri, 15 Oct 2021 16:43:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-18 14:22:04.125230
Title: Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for Consistent Self-Supervised Monocular Depth Estimation
Title（参考訳）: 幾何学的注視:一貫した自己監督単眼深度推定のための空間的時間的注視法
Authors: Patrick Ruhkamp, Daoyi Gao, Hanzhi Chen, Nassir Navab, Benjamin Busam
Abstract要約: 本稿では,近年普及している変圧器アーキテクチャと新たな正規化損失定式化を併用して,深さの整合性を改善する方法について検討する。本稿では,局所的な幾何学的情報を集約するために,粗い深度予測を関連付ける空間的注意モジュールを提案する。新たな時間的注意機構は、連続した画像間のグローバルコンテキストにおける局所的幾何学情報をさらに処理する。
参考スコア（独自算出の注目度）: 42.249533907879126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inferring geometrically consistent dense 3D scenes across a tuple of temporally consecutive images remains challenging for self-supervised monocular depth prediction pipelines. This paper explores how the increasingly popular transformer architecture, together with novel regularized loss formulations, can improve depth consistency while preserving accuracy. We propose a spatial attention module that correlates coarse depth predictions to aggregate local geometric information. A novel temporal attention mechanism further processes the local geometric information in a global context across consecutive images. Additionally, we introduce geometric constraints between frames regularized by photometric cycle consistency. By combining our proposed regularization and the novel spatial-temporal-attention module we fully leverage both the geometric and appearance-based consistency across monocular frames. This yields geometrically meaningful attention and improves temporal depth stability and accuracy compared to previous methods.
Abstract（参考訳）: 時間的に連続した画像のタプルにわたって幾何学的に一貫性のある密集した3dシーンを推測することは、自己教師付き単眼深度予測パイプラインでは困難である。本稿では,新しい正規化損失定式化とともに,近年普及しているトランスフォーマーアーキテクチャが,精度を維持しながら深さの整合性を改善する方法について検討する。本研究では,局所幾何情報を集約するために,粗い深さの予測を関連付ける空間的注意モジュールを提案する。新たな時間的注意機構は、連続した画像間のグローバルコンテキストにおける局所幾何学情報をさらに処理する。さらに、光度周期の整合性によって正規化されるフレーム間の幾何的制約を導入する。提案した正規化と新しい空間時間アテンションモジュールを組み合わせることで、単眼フレーム間の幾何学的および外観的整合性を完全に活用できる。これは幾何学的に意味のある注意を与え、従来の方法と比較して時間的深さの安定性と精度を向上させる。

関連論文リスト

Geometry-Aware Rotary Position Embedding for Consistent Video World Model [48.914346802616414]
ViewRopeは、ビデオトランスフォーマーの自己アテンション層に直接カメラの方向を注入するジオメトリ対応のエンコーディングである。 Geometry-Aware Frame-Sparse Attentionは、これらの幾何学的手がかりを利用して、関連する歴史的なフレームに選択的に参加する。この結果から,ViewRopeは長期的整合性を大幅に向上し,計算コストを低減できることがわかった。
論文参考訳（メタデータ） (2026-02-08T08:01:16Z)
GeoSurDepth: Spatial Geometry-Consistent Self-Supervised Depth Estimation for Surround-View Cameras [3.072321170197384]
GeoSurDepthは、サラウンドビューの深さ推定のための主要なキューとして、幾何整合性を利用するフレームワークである。筆者らのフレームワークは,頑健な自己教師付き多視点深度推定のための幾何学的コヒーレンスと一貫性を活用することの重要性を強調した。
論文参考訳（メタデータ） (2026-01-09T15:13:28Z)
Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance [61.41904916189093]
単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
論文参考訳（メタデータ） (2025-08-25T17:11:53Z)
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文参考訳（メタデータ） (2025-06-13T16:19:00Z)
Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文参考訳（メタデータ） (2025-05-27T09:05:28Z)
Geometry-aware Temporal Aggregation Network for Monocular 3D Lane Detection [62.27919334393825]
モノクロ3次元車線検出のためのジオメトリ対応テンポラルアグリゲーションネットワーク(GTA-Net)を提案する。一方,連続するフレーム間の幾何的整合性を利用する時空間幾何拡張モジュール(TGEM)を開発した。一方,TIQG(Temporal Instance-aware Query Generation)では,時間的キューをクエリ生成に戦略的に組み込む。
論文参考訳（メタデータ） (2025-04-29T08:10:17Z)
RDG-GS: Relative Depth Guidance with Gaussian Splatting for Real-time Sparse-View 3D Rendering [13.684624443214599]
本稿では,3次元ガウススプラッティングに基づく相対深度誘導を用いた新しいスパースビュー3DレンダリングフレームワークRDG-GSを提案する。中心となる革新は、相対的な深度誘導を利用してガウス場を洗練させ、ビュー一貫性のある空間幾何学的表現に向けてそれを操ることである。 Mip-NeRF360, LLFF, DTU, Blenderに関する広範な実験を通じて、RDG-GSは最先端のレンダリング品質と効率を実証している。
論文参考訳（メタデータ） (2025-01-19T16:22:28Z)
Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文参考訳（メタデータ） (2024-12-11T09:53:10Z)
Geometric Point Attention Transformer for 3D Shape Reassembly [17.34739330880715]
本稿では,幾何学的関係に関する推論の課題に対処するネットワークを提案する。我々は大域的な形状情報と局所的な対幾何学的特徴と、各部分の回転ベクトルや変換ベクトルとして表されるポーズを統合する。意味的および幾何学的組立作業におけるモデルの評価を行い、絶対的なポーズ推定において従来の手法よりも優れていたことを示す。
論文参考訳（メタデータ） (2024-11-26T15:29:38Z)
ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction [50.07671826433922]
微妙な幾何を同時に復元し、異なる特徴を持つ領域をまたいだ滑らかさを保つことは自明ではない。そこで我々は,ND-SDFを提案する。ND-SDFは,通常のシーンとそれ以前のシーンの角偏差を表す正規偏向場を学習する。本手法は, 壁面や床面などのスムーズなテクスチャ構造を得るだけでなく, 複雑な構造の幾何学的詳細も保存する。
論文参考訳（メタデータ） (2024-08-22T17:59:01Z)
DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文参考訳（メタデータ） (2024-06-26T14:29:05Z)
DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文参考訳（メタデータ） (2024-05-27T08:55:17Z)
SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [54.13459226728249]
パノラマ歪みは360度深度推定において大きな課題となる。本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文参考訳（メタデータ） (2024-04-23T12:36:24Z)
GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-03-18T17:50:41Z)
Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文参考訳（メタデータ） (2024-02-08T17:57:59Z)
Learning Monocular Depth in Dynamic Environment via Context-aware Temporal Attention [9.837958401514141]
マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-05-12T11:48:32Z)
Few-shot Non-line-of-sight Imaging with Signal-surface Collaborative Regularization [18.466941045530408]
非視線イメージング技術は、多重反射光からターゲットを再構成することを目的としている。最小限の測定回数でノイズロバストを再現する信号表面の協調正規化フレームワークを提案する。我々のアプローチは、救助活動や自律運転といったリアルタイム非視線画像アプリケーションにおいて大きな可能性を秘めている。
論文参考訳（メタデータ） (2022-11-21T11:19:20Z)
A Unifying and Canonical Description of Measure-Preserving Diffusions [60.59592461429012]
ユークリッド空間における測度保存拡散の完全なレシピは、最近、いくつかのMCMCアルゴリズムを単一のフレームワークに統合した。我々は、この構成を任意の多様体に改善し一般化する幾何学理論を開発する。
論文参考訳（メタデータ） (2021-05-06T17:36:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。