論文の概要: FutureDepth: Learning to Predict the Future Improves Video Depth Estimation
- arxiv url: http://arxiv.org/abs/2403.12953v1
- Date: Tue, 19 Mar 2024 17:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:04:26.682593
- Title: FutureDepth: Learning to Predict the Future Improves Video Depth Estimation
- Title(参考訳): FutureDepth: 未来を予測する学習はビデオ深度推定を改善する
- Authors: Rajeev Yasarla, Manish Kumar Singh, Hong Cai, Yunxiao Shi, Jisoo Jeong, Yinhao Zhu, Shizhong Han, Risheek Garrepalli, Fatih Porikli,
- Abstract要約: FutureDepthは、マルチフレームとモーションキューを暗黙的に活用して深度推定を改善するビデオ深度推定手法である。
本論文では,FutureDepthがベースラインモデルを大幅に改善し,既存のビデオ深度推定法より優れ,新しい最先端(SOTA)の精度が設定できることを示す。
- 参考スコア(独自算出の注目度): 46.421154770321266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel video depth estimation approach, FutureDepth, which enables the model to implicitly leverage multi-frame and motion cues to improve depth estimation by making it learn to predict the future at training. More specifically, we propose a future prediction network, F-Net, which takes the features of multiple consecutive frames and is trained to predict multi-frame features one time step ahead iteratively. In this way, F-Net learns the underlying motion and correspondence information, and we incorporate its features into the depth decoding process. Additionally, to enrich the learning of multiframe correspondence cues, we further leverage a reconstruction network, R-Net, which is trained via adaptively masked auto-encoding of multiframe feature volumes. At inference time, both F-Net and R-Net are used to produce queries to work with the depth decoder, as well as a final refinement network. Through extensive experiments on several benchmarks, i.e., NYUDv2, KITTI, DDAD, and Sintel, which cover indoor, driving, and open-domain scenarios, we show that FutureDepth significantly improves upon baseline models, outperforms existing video depth estimation methods, and sets new state-of-the-art (SOTA) accuracy. Furthermore, FutureDepth is more efficient than existing SOTA video depth estimation models and has similar latencies when comparing to monocular models
- Abstract(参考訳): 本稿では,映像深度推定手法であるFutureDepthを提案する。このモデルでは,マルチフレームとモーションキューを暗黙的に利用して,トレーニング時の未来を予測することによって,深度推定を改善することができる。
具体的には、複数の連続するフレームの特徴を取り入れ、複数フレームの特徴を反復的に予測するように訓練された将来の予測ネットワークF-Netを提案する。
このようにして、F-Netは基盤となる動きと対応情報を学習し、その特徴を深度復号化プロセスに組み込む。
さらに,マルチフレーム対応方式の学習を充実させるために,適応的にマスキングされたマルチフレーム特徴量の自動エンコーディングによってトレーニングされた再構成ネットワークであるR-Netを活用する。
推論時には、F-NetとR-Netの両方が、ディープデコーダと協調するクエリを生成するのに使われ、最終的な精細化ネットワークである。
屋内、運転、およびオープンドメインシナリオをカバーするNYUDv2、KITTI、DDAD、Sintelなどのベンチマークの広範な実験を通じて、FutureDepthはベースラインモデルを大幅に改善し、既存のビデオ深度推定方法より優れ、新しい最先端(SOTA)の精度が設定されていることを示す。
さらに、FutureDepthは既存のSOTAビデオ深度推定モデルよりも効率的であり、単分子モデルと比較すると同様のレイテンシを持つ。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - MAMo: Leveraging Memory and Attention for Monocular Video Depth
Estimation [53.90194273249202]
モノクロ映像深度推定のための新しいメモリとアテンションフレームであるMAMOを提案する。
また,MAMoでは,映像を流すときの深度予測を支援するメモリによるモデル拡張を行う。
我々はMAMoが一貫した単分子深度推定ネットワークを改善し,SOTA(State-of-the-art)の精度を新たに設定することを示した。
論文 参考訳(メタデータ) (2023-07-26T17:55:32Z) - How Far Can I Go ? : A Self-Supervised Approach for Deterministic Video
Depth Forecasting [23.134156184783357]
本研究では,将来の未観測都市景観の深度推定を予測するための,新たな自己監督手法を提案する。
この研究は、ビデオの今後観測されないフレームの単眼深度を推定するための自己教師付き学習を初めて探求した。
論文 参考訳(メタデータ) (2022-07-01T15:51:17Z) - Global-Local Path Networks for Monocular Depth Estimation with Vertical
CutDepth [24.897377434844266]
単分子深度推定のための新しい構造とトレーニング戦略を提案する。
階層型トランスフォーマーエンコーダをデプロイして,グローバルなコンテキストをキャプチャし,伝達し,軽量で強力なデコーダを設計する。
我々のネットワークは、挑戦的な深度データセットNYU Depth V2に対して最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-01-19T06:37:21Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Retrieval Augmentation to Improve Robustness and Interpretability of
Deep Neural Networks [3.0410237490041805]
本研究では,深層ニューラルネットワークの堅牢性と解釈性を改善するために,トレーニングデータを積極的に活用する。
具体的には、LSTMモデルのメモリ状態を初期化したり、注意機構を誘導するために、最も近い入力例のターゲットを用いる。
その結果,Flickr8 と IMDB の2つのタスクに対して提案したモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-02-25T17:38:31Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Deep feature fusion for self-supervised monocular depth prediction [7.779007880126907]
スクラッチから自己教師付き深度を学習するための深部特徴融合法を提案する。
核融合ネットワークはエンコーダネットワークの各レベルにおける上層と下層の両方の機能を選択する。
また,高次深度と低次深度深度から高次残留深度を学習する改良モジュールを提案する。
論文 参考訳(メタデータ) (2020-05-16T09:42:36Z) - On the performance of deep learning models for time series
classification in streaming [0.0]
この研究は、データストリーミング分類のための様々なタイプのディープアーキテクチャのパフォーマンスを評価することである。
複数の時系列データセット上で,多層パーセプトロン,リカレント,畳み込み,時間的畳み込みニューラルネットワークなどのモデルを評価する。
論文 参考訳(メタデータ) (2020-03-05T11:41:29Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。