論文の概要: Visual Attention-based Self-supervised Absolute Depth Estimation using
Geometric Priors in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2205.08780v1
- Date: Wed, 18 May 2022 08:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 13:01:10.299854
- Title: Visual Attention-based Self-supervised Absolute Depth Estimation using
Geometric Priors in Autonomous Driving
- Title(参考訳): 自律運転における幾何学的優先情報を用いた視覚的注意に基づく自己監督的絶対深度推定
- Authors: Jie Xiang, Yun Wang, Lifeng An, Haiyang Liu, Zijun Wang and Jian Liu
- Abstract要約: 空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを導入する。
VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって連続的に抽出することにより、重要な詳細を効果的に保存することができる。
KITTIデータセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 8.045833295463094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although existing monocular depth estimation methods have made great
progress, predicting an accurate absolute depth map from a single image is
still challenging due to the limited modeling capacity of networks and the
scale ambiguity issue. In this paper, we introduce a fully Visual
Attention-based Depth (VADepth) network, where spatial attention and channel
attention are applied to all stages. By continuously extracting the
dependencies of features along the spatial and channel dimensions over a long
distance, VADepth network can effectively preserve important details and
suppress interfering features to better perceive the scene structure for more
accurate depth estimates. In addition, we utilize geometric priors to form
scale constraints for scale-aware model training. Specifically, we construct a
novel scale-aware loss using the distance between the camera and a plane fitted
by the ground points corresponding to the pixels of the rectangular area in the
bottom middle of the image. Experimental results on the KITTI dataset show that
this architecture achieves the state-of-the-art performance and our method can
directly output absolute depth without post-processing. Moreover, our
experiments on the SeasonDepth dataset also demonstrate the robustness of our
model to multiple unseen environments.
- Abstract(参考訳): 既存の単眼深度推定法は大きな進歩を遂げているが,ネットワークのモデリング能力の限界やスケールのあいまいさの問題により,単一の画像から正確な絶対深度マップを推定することは依然として困難である。
本稿では,空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを提案する。
VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって抽出することにより、重要な詳細を効果的に保存し、干渉特性を抑え、より正確な深さ推定のためにシーン構造をより正確に知覚することができる。
さらに,ジオメトリ・プリエントを用いて,スケール認識モデルトレーニングのためのスケール制約を形成する。
具体的には、画像の下部の長方形領域の画素に対応する接地点が取り付けられたカメラと平面との間の距離を用いて、新しいスケール認識損失を構築する。
KITTIデータセットを用いた実験結果から,本アーキテクチャは最先端の性能を実現し,提案手法は後処理なしで直接絶対深度を出力できることがわかった。
さらに, seasondepthデータセットを用いた実験では,複数の未知環境に対するモデルのロバスト性も実証した。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - Calibrating Panoramic Depth Estimation for Practical Localization and
Mapping [20.621442016969976]
周囲環境の絶対深度値は, 局所化, ナビゲーション, 3次元構造推定など, 様々な補助技術にとって重要な手がかりとなる。
本研究では,パノラマ画像から推定される精度の高い深度が,3次元情報を必要とする幅広い下流タスクに対して,強力で軽量な入力として機能することを提案する。
論文 参考訳(メタデータ) (2023-08-27T04:50:05Z) - Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。
我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文 参考訳(メタデータ) (2023-04-14T07:14:08Z) - Depth Monocular Estimation with Attention-based Encoder-Decoder Network
from Single Image [7.753378095194288]
ビジョンベースのアプローチは最近多くの注目を集めており、これらの欠点を克服することができる。
本研究では,格子状アーチファクトやぼやけたエッジに悩まされている1つの単眼画像から深度マップを推定する。
我々の新しいアプローチは、最小限のオーバーヘッドで現在の画像の焦点を見つけることができ、奥行き特性の損失を避けることができる。
論文 参考訳(メタデータ) (2022-10-24T23:01:25Z) - Self-Guided Instance-Aware Network for Depth Completion and Enhancement [6.319531161477912]
既存の手法では,画素ワイド画像の内容とそれに対応する近傍の深度値に基づいて,欠落した深度測定を直接補間する。
本稿では、自己誘導機構を利用して、深度復元に必要なインスタンスレベルの特徴を抽出する自己誘導型インスタンス認識ネットワーク(SG-IANet)を提案する。
論文 参考訳(メタデータ) (2021-05-25T19:41:38Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Deep Depth Estimation from Visual-Inertial SLAM [11.814395824799988]
視覚-慣性同時局在マッピングシステム(VI-SLAM)を用いてスパース深度を計算した症例について検討した。
結果として生じる点雲は密度が低く、ノイズがあり、一様でない空間分布を持つ。
我々は、VI-SLAMから得られる重力推定値を用いて、トレーニングデータセットで一般的な向きに入力画像をワープする。
論文 参考訳(メタデータ) (2020-07-31T21:28:25Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。