論文の概要: How Far Can I Go ? : A Self-Supervised Approach for Deterministic Video
Depth Forecasting
- arxiv url: http://arxiv.org/abs/2207.00506v1
- Date: Fri, 1 Jul 2022 15:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 14:10:32.602776
- Title: How Far Can I Go ? : A Self-Supervised Approach for Deterministic Video
Depth Forecasting
- Title(参考訳): どこまで行ける?
決定論的ビデオ深度予測のための自己監督的アプローチ
- Authors: Suaradip Nag, Nisarg Shah, Anran Qi, Raghavendra Ramachandra
- Abstract要約: 本研究では,将来の未観測都市景観の深度推定を予測するための,新たな自己監督手法を提案する。
この研究は、ビデオの今後観測されないフレームの単眼深度を推定するための自己教師付き学習を初めて探求した。
- 参考スコア(独自算出の注目度): 23.134156184783357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present a novel self-supervised method to anticipate the
depth estimate for a future, unobserved real-world urban scene. This work is
the first to explore self-supervised learning for estimation of monocular depth
of future unobserved frames of a video. Existing works rely on a large number
of annotated samples to generate the probabilistic prediction of depth for
unseen frames. However, this makes it unrealistic due to its requirement for
large amount of annotated depth samples of video. In addition, the
probabilistic nature of the case, where one past can have multiple future
outcomes often leads to incorrect depth estimates. Unlike previous methods, we
model the depth estimation of the unobserved frame as a view-synthesis problem,
which treats the depth estimate of the unseen video frame as an auxiliary task
while synthesizing back the views using learned pose. This approach is not only
cost effective - we do not use any ground truth depth for training (hence
practical) but also deterministic (a sequence of past frames map to an
immediate future). To address this task we first develop a novel depth
forecasting network DeFNet which estimates depth of unobserved future by
forecasting latent features. Second, we develop a channel-attention based pose
estimation network that estimates the pose of the unobserved frame. Using this
learned pose, estimated depth map is reconstructed back into the image domain,
thus forming a self-supervised solution. Our proposed approach shows
significant improvements in Abs Rel metric compared to state-of-the-art
alternatives on both short and mid-term forecasting setting, benchmarked on
KITTI and Cityscapes. Code is available at
https://github.com/sauradip/depthForecasting
- Abstract(参考訳): 本稿では,将来の未観測都市景観の深さ推定を予測するための,新しい自己監督手法を提案する。
この研究は、将来の未観測フレームの単眼深度推定のための自己教師付き学習を初めて探求した。
既存の作品では、未発見のフレームの深さの確率的予測を生成するために、多数の注釈付きサンプルに依存している。
しかし、ビデオの大量の注釈付き深度サンプルを必要とするため、これは非現実的である。
さらに、ある過去が複数の将来の結果をもたらす場合の確率論的性質は、しばしば誤った深さの推定につながる。
従来の手法とは異なり,映像フレームの奥行き推定を視点合成問題としてモデル化し,映像フレームの奥行き推定を補助タスクとして扱うとともに,学習したポーズを用いてビューを合成する。
このアプローチは費用対効果があるだけでなく、トレーニングには根底にある真理の深さ(実践的)だけでなく、決定論的(過去のフレームのシーケンスがすぐに未来にマップされる)にも使用しています。
この課題に対処するため,我々はまず,潜在特徴の予測により観測されていない将来の深さを推定する新しい深さ予測ネットワークdefnetを開発した。
第2に、未観測フレームのポーズを推定するチャネルアテンションに基づくポーズ推定ネットワークを開発する。
この学習されたポーズを用いて、推定深度マップを画像領域に再構成し、自己教師付きソリューションを形成する。
提案手法は,KITTIとCityscapesでベンチマークした,短期・中期予測設定における最先端の代替手段と比較して,Abs Rel測定の大幅な改善を示す。
コードはhttps://github.com/sauradip/depthForecastingで入手できる。
関連論文リスト
- Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - FutureDepth: Learning to Predict the Future Improves Video Depth Estimation [46.421154770321266]
FutureDepthは、マルチフレームとモーションキューを暗黙的に活用して深度推定を改善するビデオ深度推定手法である。
本論文では,FutureDepthがベースラインモデルを大幅に改善し,既存のビデオ深度推定法より優れ,新しい最先端(SOTA)の精度が設定できることを示す。
論文 参考訳(メタデータ) (2024-03-19T17:55:22Z) - Range-Agnostic Multi-View Depth Estimation With Keyframe Selection [33.99466211478322]
提案したフレームから3次元再構成を行うには,シーン距離範囲に関する事前知識が必要である。
RAMDepthは、深さ推定とマッチングステップの順序を反転させる、効率的で純粋に2Dフレームワークである。
論文 参考訳(メタデータ) (2024-01-25T18:59:42Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation [60.780823530087446]
画像合成の改善は深度推定の改善を必要としないことを示す。
この発散現象は、データから生じるアレラトリックな不確実性に起因している。
この観察された発散は、以前に報告されたり、深く研究されたりしていない。
論文 参考訳(メタデータ) (2021-09-13T17:57:24Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。