論文の概要: Two-in-One Depth: Bridging the Gap Between Monocular and Binocular
Self-supervised Depth Estimation
- arxiv url: http://arxiv.org/abs/2309.00933v1
- Date: Sat, 2 Sep 2023 13:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:16:15.296876
- Title: Two-in-One Depth: Bridging the Gap Between Monocular and Binocular
Self-supervised Depth Estimation
- Title(参考訳): 2対1深さ:単眼と両眼の自己監督深度推定のギャップを埋める
- Authors: Zhengming Zhou and Qiulei Dong
- Abstract要約: 本稿では,TiO-Depthと呼ばれる2-in-One自己教師型深度推定ネットワークを提案する。
両眼深度推定には,両画像間のステレオ知識を取り入れた単眼特徴マッチングモジュールが提案されている。
TiO-Depthは、ほとんどの場合、単眼と双眼の両方で優れることを示す。
- 参考スコア(独自算出の注目度): 21.466000613898988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular and binocular self-supervised depth estimations are two important
and related tasks in computer vision, which aim to predict scene depths from
single images and stereo image pairs respectively. In literature, the two tasks
are usually tackled separately by two different kinds of models, and binocular
models generally fail to predict depth from single images, while the prediction
accuracy of monocular models is generally inferior to binocular models. In this
paper, we propose a Two-in-One self-supervised depth estimation network, called
TiO-Depth, which could not only compatibly handle the two tasks, but also
improve the prediction accuracy. TiO-Depth employs a Siamese architecture and
each sub-network of it could be used as a monocular depth estimation model. For
binocular depth estimation, a Monocular Feature Matching module is proposed for
incorporating the stereo knowledge between the two images, and the full
TiO-Depth is used to predict depths. We also design a multi-stage
joint-training strategy for improving the performances of TiO-Depth in both two
tasks by combining the relative advantages of them. Experimental results on the
KITTI, Cityscapes, and DDAD datasets demonstrate that TiO-Depth outperforms
both the monocular and binocular state-of-the-art methods in most cases, and
further verify the feasibility of a two-in-one network for monocular and
binocular depth estimation. The code is available at
https://github.com/ZM-Zhou/TiO-Depth_pytorch.
- Abstract(参考訳): 単眼と双眼の自己監督深度推定はコンピュータビジョンにおいて重要な2つのタスクであり、それぞれ1つの画像とステレオ画像のペアからシーン深度を予測することを目的としている。
文献では、2つのタスクは通常2つの異なるモデルによって個別に取り組まれるが、双眼鏡モデルは一般的に単一の画像から深度を予測するのに失敗し、一方単眼モデルでは予測精度は双眼鏡モデルより劣る。
本稿では,2つのタスクを相互に処理するだけでなく,予測精度も向上するTiO-Depthと呼ばれる2-in-One自己教師型深度推定ネットワークを提案する。
tio-depthはシャムアーキテクチャを採用しており、各サブネットワークは単眼深度推定モデルとして使用できる。
両眼深度推定には,両画像間のステレオ知識を取り入れた単眼特徴マッチングモジュールが提案され,深度予測にはフルTiO-Depthが使用される。
また,2つのタスクにおけるTiO-Depthの性能向上のための多段階共同学習戦略を設計する。
kitti, cityscapes, ddadデータセットを用いた実験の結果, tio-depthは, たいていの場合において単眼と双眼の両方の方法よりも優れており, 単眼と双眼の深さ推定のための2対1のネットワークの実現可能性も検証している。
コードはhttps://github.com/zm-zhou/tio-depth_pytorchで入手できる。
関連論文リスト
- DepthSplat: Connecting Gaussian Splatting and Depth [90.06180236292866]
ガウススプラッティングと深さ推定を結合するDepthSplatを提案する。
まず,事前学習した単眼深度特徴を生かして,頑健な多眼深度モデルを提案する。
また,ガウス的スプラッティングは教師なし事前学習の目的として機能することを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:58Z) - FusionDepth: Complement Self-Supervised Monocular Depth Estimation with
Cost Volume [9.912304015239313]
複数フレームの逐次制約により単眼深度を連続的に改善できる多眼深度推定フレームワークを提案する。
また,本手法は,単分子推定と多視点コストボリュームを組み合わせる際の解釈可能性も向上する。
論文 参考訳(メタデータ) (2023-05-10T10:38:38Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - MGNet: Monocular Geometric Scene Understanding for Autonomous Driving [10.438741209852209]
MGNetはモノクロ幾何学的シーン理解のためのマルチタスクフレームワークである。
我々は、単眼の幾何学的シーン理解を、パノプティカルセグメンテーションと自己教師付き単眼深度推定という2つの既知のタスクの組み合わせとして定義する。
我々のモデルは、単一のコンシューマグレードのGPU上で、リアルタイムに高速な推論を提供するために、低レイテンシにフォーカスして設計されている。
論文 参考訳(メタデータ) (2022-06-27T11:27:55Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - Weakly-Supervised Monocular Depth Estimationwith Resolution-Mismatched
Data [73.9872931307401]
単眼深度推定ネットワークをトレーニングするための弱教師付きフレームワークを提案する。
提案フレームワークは, 共有重量単分子深度推定ネットワークと蒸留用深度再構成ネットワークから構成される。
実験結果から,本手法は教師なし・半教師付き学習ベース方式よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-09-23T18:04:12Z) - Scale-aware direct monocular odometry [4.111899441919165]
本稿では,深部ニューラルネットワークからの深度予測に基づく直接単分子オードメトリーの枠組みを提案する。
提案手法は,従来の単分子SLAMよりも5倍から9倍精度が高く,ステレオシステムに近い精度である。
論文 参考訳(メタデータ) (2021-09-21T10:30:15Z) - Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR [22.202192422883122]
本稿では,自己教師付き単分子深度学習を推進するための2段階ネットワークを提案する。
本モデルでは,単色画像特徴と疎LiDAR特徴を融合させて初期深度マップを推定する。
我々のモデルは、下流タスクのモノクロ3Dオブジェクト検出において、最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。
論文 参考訳(メタデータ) (2021-09-20T15:28:36Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Variational Monocular Depth Estimation for Reliability Prediction [12.951621755732544]
教師付き学習手法の代替として,単眼深度推定のための自己教師付き学習が広く研究されている。
従来はモデル構造の変更による深度推定の精度向上に成功している。
本稿では, 単眼深度推定のための変分モデルを理論的に定式化し, 推定深度画像の信頼性を推定する。
論文 参考訳(メタデータ) (2020-11-24T06:23:51Z) - Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction [72.30870535815258]
モノクロ深度予測のためのCNNは、周囲の環境の3Dマップを構築するための2つの大きく不連続なアプローチを表している。
本稿では,CNN予測深度を利用してRGB-D特徴量に基づくSLAMを行う,狭義の広義の自己改善フレームワークを提案する。
一方、より原理化された幾何学的SLAMの3次元シーン構造とカメラポーズは、新しい広義のベースライン損失により奥行きネットワークに注入される。
論文 参考訳(メタデータ) (2020-04-22T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。