論文の概要: Exploring the Mutual Influence between Self-Supervised Single-Frame and
Multi-Frame Depth Estimation
- arxiv url: http://arxiv.org/abs/2304.12685v2
- Date: Mon, 28 Aug 2023 02:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 23:57:24.586981
- Title: Exploring the Mutual Influence between Self-Supervised Single-Frame and
Multi-Frame Depth Estimation
- Title(参考訳): 自己監督型シングルフレームと多フレーム深度推定の相互影響の探索
- Authors: Jie Xiang, Yun Wang, Lifeng An, Haiyang Liu and Jian Liu
- Abstract要約: 単フレームおよび多フレーム深度推定のための新しい自己教師型トレーニングフレームワークを提案する。
まず,複数フレームモデルのトレーニングを行うために,一フレームの深度でガイドされる画素単位の適応型深度サンプリングモジュールを導入する。
次に、最小再投射に基づく蒸留損失を利用して、知識を多フレーム深度ネットワークから単一フレームネットワークに転送する。
- 参考スコア(独自算出の注目度): 10.872396009088595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although both self-supervised single-frame and multi-frame depth estimation
methods only require unlabeled monocular videos for training, the information
they leverage varies because single-frame methods mainly rely on
appearance-based features while multi-frame methods focus on geometric cues.
Considering the complementary information of single-frame and multi-frame
methods, some works attempt to leverage single-frame depth to improve
multi-frame depth. However, these methods can neither exploit the difference
between single-frame depth and multi-frame depth to improve multi-frame depth
nor leverage multi-frame depth to optimize single-frame depth models. To fully
utilize the mutual influence between single-frame and multi-frame methods, we
propose a novel self-supervised training framework. Specifically, we first
introduce a pixel-wise adaptive depth sampling module guided by single-frame
depth to train the multi-frame model. Then, we leverage the minimum
reprojection based distillation loss to transfer the knowledge from the
multi-frame depth network to the single-frame network to improve single-frame
depth. Finally, we regard the improved single-frame depth as a prior to further
boost the performance of multi-frame depth estimation. Experimental results on
the KITTI and Cityscapes datasets show that our method outperforms existing
approaches in the self-supervised monocular setting.
- Abstract(参考訳): 自己教師付きシングルフレームとマルチフレーム深度推定のどちらの手法もトレーニングのためにラベル付きモノクロビデオを必要とするが、それらが利用する情報は様々である。
単フレーム法と多フレーム法の相補的な情報を考えると、多フレーム深度を改善するために単フレーム深度を活用しようとする研究もある。
しかし、この手法では、単一フレーム深さと多フレーム深さの違いを生かさず、多フレーム深さを改善したり、複数フレーム深さを最適化したりすることはできない。
シングルフレームとマルチフレームの相互影響をフル活用するために,新しい自己教師型トレーニングフレームワークを提案する。
具体的には,まず,単一フレーム深度に誘導された画素方向適応深度サンプリングモジュールを導入し,マルチフレームモデルを訓練する。
次に, 最小再プロジェクションに基づく蒸留損失を活用し, 知識をマルチフレーム深度ネットワークからシングルフレームネットワークに移し, シングルフレーム深度を改善する。
最後に,改良された単一フレーム深度を,複数フレーム深度推定の性能をさらに向上させる前兆とみなす。
kitti と cityscapes のデータセットにおける実験結果から,本手法は自己教師付き単眼環境における既存手法よりも優れていることが示された。
関連論文リスト
- Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - FusionDepth: Complement Self-Supervised Monocular Depth Estimation with
Cost Volume [9.912304015239313]
複数フレームの逐次制約により単眼深度を連続的に改善できる多眼深度推定フレームワークを提案する。
また,本手法は,単分子推定と多視点コストボリュームを組み合わせる際の解釈可能性も向上する。
論文 参考訳(メタデータ) (2023-05-10T10:38:38Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - Multi-Frame Self-Supervised Depth Estimation with Multi-Scale Feature
Fusion in Dynamic Scenes [25.712707161201802]
マルチフレーム手法は単一フレームアプローチによる単眼深度推定を改善する。
最近の手法では、特徴マッチングと動的シーンのための複雑なアーキテクチャを提案する傾向がある。
単純な学習フレームワークと設計された機能拡張が、優れたパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-26T05:26:30Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。