Fugu-MT 論文翻訳(概要): Towards Scale-Aware Full Surround Monodepth with Transformers

論文の概要: Towards Scale-Aware Full Surround Monodepth with Transformers

arxiv url: http://arxiv.org/abs/2407.10406v1
Date: Mon, 15 Jul 2024 02:54:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 16:30:30.498028
Title: Towards Scale-Aware Full Surround Monodepth with Transformers
Title（参考訳）: 変圧器を用いた大規模全周単深化に向けて
Authors: Yuchen Yang, Xinyi Wang, Dong Li, Lu Tian, Ashish Sirasao, Xun Yang,
Abstract要約: フルサラウンドモノデプス(FSM)法は,複数のカメラビューから同時に学習し,スケール認識深度を予測する。本研究では,深度推定のためのFSM法のスケール・アウェアネスの向上に焦点をあてる。
参考スコア（独自算出の注目度）: 46.100897032607335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Full surround monodepth (FSM) methods can learn from multiple camera views simultaneously in a self-supervised manner to predict the scale-aware depth, which is more practical for real-world applications in contrast to scale-ambiguous depth from a standalone monocular camera. In this work, we focus on enhancing the scale-awareness of FSM methods for depth estimation. To this end, we propose to improve FSM from two perspectives: depth network structure optimization and training pipeline optimization. First, we construct a transformer-based depth network with neighbor-enhanced cross-view attention (NCA). The cross-attention modules can better aggregate the cross-view context in both global and neighboring views. Second, we formulate a transformer-based feature matching scheme with progressive training to improve the structure-from-motion (SfM) pipeline. That allows us to learn scale-awareness with sufficient matches and further facilitate network convergence by removing mismatches based on SfM loss. Experiments demonstrate that the resulting Scale-aware full surround monodepth (SA-FSM) method largely improves the scale-aware depth predictions without median-scaling at the test time, and performs favorably against the state-of-the-art FSM methods, e.g., surpassing SurroundDepth by 3.8% in terms of accuracy at delta<1.25 on the DDAD benchmark.
Abstract（参考訳）: フルサラウンドモノディープス(FSM)法は,複数のカメラビューから同時に学習し,単独の単眼カメラによるスケールアンビグラスディープとは対照的に,現実のアプリケーションにおいてより実用的なスケールアウェアディープを予測できる。本研究では,深度推定のためのFSM法のスケール・アウェアネスの向上に焦点をあてる。そこで本研究では,深度ネットワーク構造最適化とトレーニングパイプライン最適化という2つの観点からFSMを改善することを提案する。まず,隣り合わせのクロスビューアテンション(NCA)を用いた変圧器を用いた深度ネットワークを構築する。クロスアテンションモジュールは、グローバルビューと近隣ビューの両方において、クロスビューコンテキストをよりよく集約することができる。第2に、トランスフォーマーに基づく特徴マッチングスキームをプログレッシブトレーニングで定式化し、SfMパイプラインを改善する。これにより,SfM損失に基づくミスマッチを除去することで,十分な一致でスケール認識を学習し,ネットワークの収束をさらに促進できる。実験の結果、SA-FSM法は、テスト時に中央値スケーリングなしでスケール認識深度予測を大幅に改善し、DDADベンチマークのデルタ<1.25の精度でSurroundDepthを3.8%上回る最先端のFSM法に対して好適に機能することが示された。

関連論文リスト

Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。提案手法は,KITTIデータセット上での競合結果を実現する。
論文参考訳（メタデータ） (2024-09-26T14:44:41Z)
ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文参考訳（メタデータ） (2023-08-17T14:52:11Z)
DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view Structure from Motion [9.294501649791016]
動きからの2次元構造(SfM)は3次元再構成と視覚SLAM(vSLAM)の基礎となる。本稿では,2視点SfM問題を最大最大推定(MLE)として定式化し,DeepMLEと表記されるフレームワークを用いて解いた。提案手法は,最先端の2ビューSfM手法よりも精度と一般化能力において優れる。
論文参考訳（メタデータ） (2022-10-11T15:07:25Z)
Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文参考訳（メタデータ） (2022-04-04T06:26:46Z)
VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文参考訳（メタデータ） (2021-08-19T11:33:58Z)
Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文参考訳（メタデータ） (2021-04-01T15:31:20Z)
OmniSLAM: Omnidirectional Localization and Dense Mapping for Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文参考訳（メタデータ） (2020-03-18T05:52:10Z)
Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文参考訳（メタデータ） (2019-12-30T10:45:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。