論文の概要: Learning Monocular Depth in Dynamic Environment via Context-aware
Temporal Attention
- arxiv url: http://arxiv.org/abs/2305.07397v1
- Date: Fri, 12 May 2023 11:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:08:32.646683
- Title: Learning Monocular Depth in Dynamic Environment via Context-aware
Temporal Attention
- Title(参考訳): 文脈認識型時間注意による動的環境における単眼深度学習
- Authors: Zizhang Wu, Zhuozheng Li, Zhi-Gang Fan, Yunzhe Wu, Yuanzhu Gan, Jian
Pu, Xianzhi Li
- Abstract要約: マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。
提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 9.837958401514141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The monocular depth estimation task has recently revealed encouraging
prospects, especially for the autonomous driving task. To tackle the ill-posed
problem of 3D geometric reasoning from 2D monocular images, multi-frame
monocular methods are developed to leverage the perspective correlation
information from sequential temporal frames. However, moving objects such as
cars and trains usually violate the static scene assumption, leading to feature
inconsistency deviation and misaligned cost values, which would mislead the
optimization algorithm. In this work, we present CTA-Depth, a Context-aware
Temporal Attention guided network for multi-frame monocular Depth estimation.
Specifically, we first apply a multi-level attention enhancement module to
integrate multi-level image features to obtain an initial depth and pose
estimation. Then the proposed CTA-Refiner is adopted to alternatively optimize
the depth and pose. During the refinement process, context-aware temporal
attention (CTA) is developed to capture the global temporal-context
correlations to maintain the feature consistency and estimation integrity of
moving objects. In particular, we propose a long-range geometry embedding (LGE)
module to produce a long-range temporal geometry prior. Our approach achieves
significant improvements over state-of-the-art approaches on three benchmark
datasets.
- Abstract(参考訳): 単眼深度推定タスクは近年,特に自律運転タスクにおいて,有望な見通しを明らかにしている。
2次元単眼画像から3次元幾何学的推論の誤った問題に取り組むために,時系列フレームからの遠近相関情報を活用するために多次元単眼法を開発した。
しかし、車や電車などの移動物体は、通常静的なシーンの仮定に反し、特徴的不整合と不整合のコスト値につながり、最適化アルゴリズムを誤解させる。
本稿では,マルチフレーム単眼深度推定のための文脈認識型時空間注意誘導ネットワークであるcta-depthを提案する。
具体的には,まずマルチレベルアテンションエンハンスメントモジュールを適用し,マルチレベル画像機能を統合し,初期深度とポーズ推定を行う。
次に,提案したCTA-Refinerを用いて奥行きとポーズを最適化する。
改良過程では, 時間的時間的注意(CTA)が発達し, 時間的相関関係を捉え, 移動物体の特徴の整合性と推定の整合性を維持する。
特に,長範囲の時間的幾何を生成するために,LGEモジュールを提案する。
提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。