論文の概要: Multi-Frame Self-Supervised Depth with Transformers
- arxiv url: http://arxiv.org/abs/2204.07616v1
- Date: Fri, 15 Apr 2022 19:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 14:42:16.954577
- Title: Multi-Frame Self-Supervised Depth with Transformers
- Title(参考訳): 変圧器を用いたマルチフレーム自己監督深度
- Authors: Vitor Guizilini, Rares Ambrus, Dian Chen, Sergey Zakharov, Adrien
Gaidon
- Abstract要約: 本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
- 参考スコア(独自算出の注目度): 33.00363651105475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-frame depth estimation improves over single-frame approaches by also
leveraging geometric relationships between images via feature matching, in
addition to learning appearance-based features. In this paper we revisit
feature matching for self-supervised monocular depth estimation, and propose a
novel transformer architecture for cost volume generation. We use
depth-discretized epipolar sampling to select matching candidates, and refine
predictions through a series of self- and cross-attention layers. These layers
sharpen the matching probability between pixel features, improving over
standard similarity metrics prone to ambiguities and local minima. The refined
cost volume is decoded into depth estimates, and the whole pipeline is trained
end-to-end from videos using only a photometric objective. Experiments on the
KITTI and DDAD datasets show that our DepthFormer architecture establishes a
new state of the art in self-supervised monocular depth estimation, and is even
competitive with highly specialized supervised single-frame architectures. We
also show that our learned cross-attention network yields representations
transferable across datasets, increasing the effectiveness of pre-training
strategies. Project page: https://sites.google.com/tri.global/depthformer
- Abstract(参考訳): 特徴マッチングによる画像間の幾何学的関係を活用し、外観に基づく特徴を学習することで、シングルフレームアプローチよりもマルチフレーム深度推定が向上する。
本稿では,自己教師付き単眼深度推定のための特徴マッチングを再検討し,コストボリューム生成のための新しいトランスアーキテクチャを提案する。
深度分布のエピポーラサンプリングを用いて、マッチング候補を選択し、一連の自己および横断的な層を通して予測を洗練する。
これらの層は画素特徴間の一致確率を鋭くし、曖昧さや局所最小化による標準類似度指標よりも改善する。
精細化されたコスト容積は深さ推定にデコードされ、パイプライン全体は測光目的のみを使用してビデオからエンドツーエンドに訓練される。
KITTIとDDADデータセットの実験により、私たちのDepthFormerアーキテクチャは、自己教師付き単眼深度推定における技術の新たな状態を確立し、高度に専門化された単一フレームアーキテクチャと競合することを示した。
また、学習したクロスアテンションネットワークはデータセット間で転送可能な表現を生成し、事前学習戦略の有効性を高めることも示す。
プロジェクトページ: https://sites.google.com/tri.global/depthformer
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - Lightweight Monocular Depth Estimation with an Edge Guided Network [34.03711454383413]
本稿では,新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、軽量なエンコーダデコーダアーキテクチャから始め、エッジガイダンスブランチを組み込む。
コンテクスト情報とエッジアテンション特徴を集約するために,トランスフォーマーをベースとした機能アグリゲーションモジュールを設計する。
論文 参考訳(メタデータ) (2022-09-29T14:45:47Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。