論文の概要: Cascade Network for Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2009.06223v1
- Date: Mon, 14 Sep 2020 06:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 12:24:41.637899
- Title: Cascade Network for Self-Supervised Monocular Depth Estimation
- Title(参考訳): 自己監督型単眼深度推定のためのカスケードネットワーク
- Authors: Chunlai Chai, Yukuan Lou, Shijin Zhang
- Abstract要約: 本稿では,カスケードネットワークに基づく自己教師型学習手法を提案する。
従来の自己監督手法と比較して精度と信頼性が向上した。
我々は、ターゲットシーンを異なる視線距離の部分に分割し、より深い地図を生成するために個別に訓練するカスケードニューラルネットワークを示す。
- 参考スコア(独自算出の注目度): 0.07161783472741746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a classical compute vision problem to obtain real scene depth maps by
using a monocular camera, which has been widely concerned in recent years.
However, training this model usually requires a large number of artificially
labeled samples. To solve this problem, some researchers use a self-supervised
learning model to overcome this problem and reduce the dependence on manually
labeled data. Nevertheless, the accuracy and reliability of these methods have
not reached the expected standard. In this paper, we propose a new
self-supervised learning method based on cascade networks. Compared with the
previous self-supervised methods, our method has improved accuracy and
reliability, and we have proved this by experiments. We show a cascaded neural
network that divides the target scene into parts of different sight distances
and trains them separately to generate a better depth map. Our approach is
divided into the following four steps. In the first step, we use the
self-supervised model to estimate the depth of the scene roughly. In the second
step, the depth of the scene generated in the first step is used as a label to
divide the scene into different depth parts. The third step is to use models
with different parameters to generate depth maps of different depth parts in
the target scene, and the fourth step is to fuse the depth map. Through the
ablation study, we demonstrated the effectiveness of each component
individually and showed high-quality, state-of-the-art results in the KITTI
benchmark.
- Abstract(参考訳): 近年広く注目されている単眼カメラを用いて実景深度マップを得ることは、古典的な計算ビジョン問題である。
しかしながら、このモデルのトレーニングは通常、多数の人工ラベル付きサンプルを必要とする。
この問題を解決するために、一部の研究者は自己教師付き学習モデルを用いてこの問題を克服し、手動ラベル付きデータへの依存を減らす。
しかしながら、これらの手法の精度と信頼性は期待された基準に達していない。
本稿では,カスケードネットワークに基づく自己教師型学習手法を提案する。
従来の自己監督手法と比較して精度と信頼性が向上し,実験によりこれを証明した。
我々は、ターゲットシーンを異なる視線距離の部分に分割し、より深い地図を生成するために個別に訓練するカスケードニューラルネットワークを示す。
我々のアプローチは以下の4つのステップに分けられる。
最初のステップでは、自己監督モデルを用いてシーンの深さを大まかに推定する。
第2ステップでは、第1ステップで生成されたシーンの深さをラベルとして使用して、シーンを異なる深さ部分に分割する。
第3のステップは、異なるパラメータを持つモデルを使用して、ターゲットシーンの異なる深さ部分の深さマップを生成し、第4のステップは深さマップを融合する。
アブレーション実験により, 各コンポーネントの有効性を個別に検証し, KITTIベンチマークで高品質で最先端な結果を示した。
関連論文リスト
- RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - FS-Depth: Focal-and-Scale Depth Estimation from a Single Image in Unseen
Indoor Scene [57.26600120397529]
実際の(見えない)屋内シーンの単一の画像から絶対深度マップを予測するのには、長年不適切な問題だった。
本研究では,未確認屋内シーンの単一画像から絶対深度マップを正確に学習するための焦点・スケール深度推定モデルを開発した。
論文 参考訳(メタデータ) (2023-07-27T04:49:36Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。
RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文 参考訳(メタデータ) (2022-07-25T08:49:59Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Self-Supervised Learning for Monocular Depth Estimation from Aerial
Imagery [0.20072624123275526]
航空画像からの単眼深度推定のための自己教師型学習法を提案する。
このために、単一の移動カメラからの画像シーケンスのみを使用し、深度を同時に推定し、情報をポーズすることを学ぶ。
ポーズと深さ推定の重みを共有することによって、比較的小さなモデルが実現され、リアルタイムの応用が好まれる。
論文 参考訳(メタデータ) (2020-08-17T12:20:46Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。