論文の概要: The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth
- arxiv url: http://arxiv.org/abs/2104.14540v1
- Date: Thu, 29 Apr 2021 17:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 12:57:54.770858
- Title: The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth
- Title(参考訳): 時間的オポチュニスト:自己監督型マルチフレーム単眼深度
- Authors: Jamie Watson, Oisin Mac Aodha, Victor Prisacariu, Gabriel Brostow,
Michael Firman
- Abstract要約: ManyDepth は密度深度推定への適応的なアプローチである。
信頼性が低いと判断された場合、ネットワークがコストを無視するように促す新しい一貫性損失を示す。
- 参考スコア(独自算出の注目度): 28.06671063873351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation networks are trained to predict
scene depth using nearby frames as a supervision signal during training.
However, for many applications, sequence information in the form of video
frames is also available at test time. The vast majority of monocular networks
do not make use of this extra signal, thus ignoring valuable information that
could be used to improve the predicted depth. Those that do, either use
computationally expensive test-time refinement techniques or off-the-shelf
recurrent networks, which only indirectly make use of the geometric information
that is inherently available.
We propose ManyDepth, an adaptive approach to dense depth estimation that can
make use of sequence information at test time, when it is available. Taking
inspiration from multi-view stereo, we propose a deep end-to-end cost volume
based approach that is trained using self-supervision only. We present a novel
consistency loss that encourages the network to ignore the cost volume when it
is deemed unreliable, e.g. in the case of moving objects, and an augmentation
scheme to cope with static cameras. Our detailed experiments on both KITTI and
Cityscapes show that we outperform all published self-supervised baselines,
including those that use single or multiple frames at test time.
- Abstract(参考訳): 自己教師付き単眼深度推定ネットワークを訓練し、訓練中の監視信号として近傍フレームを用いてシーン深度を予測する。
しかし、多くのアプリケーションでは、ビデオフレーム形式のシーケンス情報もテスト時に利用可能である。
モノキュラーネットワークの大多数は、この余分な信号を使用しないため、予測された深さを改善するために使用できる貴重な情報を無視している。
計算コストの高いテストタイムリファインメント技術を使うか、既製のリカレントネットワークを使うかのいずれかで、本質的に利用可能な幾何学的情報のみを間接的に利用する。
本研究では,テスト時にシーケンス情報を利用することのできる,密集度推定のための適応的手法である muchdepth を提案する。
マルチビューステレオからインスピレーションを得て,セルフスーパービジョンのみを用いてトレーニングした,エンドツーエンドのボリュームベースアプローチを提案する。
我々は,ネットワークが信頼できないと見なされる場合,コストボリュームを無視することを促す,新たな一貫性損失を提案する。
動くオブジェクトの場合は、スタティックカメラに対処するための拡張スキーム。
KITTIとCityscapesの両方で詳細な実験を行ったところ、テスト時に1フレームまたは複数フレームを使用するものを含む、すべてのセルフ教師付きベースラインを上回りました。
関連論文リスト
- FusionDepth: Complement Self-Supervised Monocular Depth Estimation with
Cost Volume [9.912304015239313]
複数フレームの逐次制約により単眼深度を連続的に改善できる多眼深度推定フレームワークを提案する。
また,本手法は,単分子推定と多視点コストボリュームを組み合わせる際の解釈可能性も向上する。
論文 参考訳(メタデータ) (2023-05-10T10:38:38Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z) - MiniNet: An extremely lightweight convolutional neural network for
real-time unsupervised monocular depth estimation [22.495019810166397]
本稿では,深層ネットワークの機能を実現するために,再帰モジュールを備えた新しい強力なネットワークを提案する。
我々は、ビデオシーケンスからリアルタイムな高性能な教師なし単眼深度予測を行うために、非常に軽量なサイズを維持している。
私たちの新しいモデルは、1つのGPUで約110フレーム/秒(fps)、単一のCPUで37fps、Raspberry Pi 3で2fpsで実行できます。
論文 参考訳(メタデータ) (2020-06-27T12:13:22Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。