論文の概要: MAMo: Leveraging Memory and Attention for Monocular Video Depth
Estimation
- arxiv url: http://arxiv.org/abs/2307.14336v2
- Date: Tue, 12 Sep 2023 21:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 17:31:51.758876
- Title: MAMo: Leveraging Memory and Attention for Monocular Video Depth
Estimation
- Title(参考訳): MAMO:モノクロビデオ深度推定のためのメモリと注意の活用
- Authors: Rajeev Yasarla, Hong Cai, Jisoo Jeong, Yunxiao Shi, Risheek
Garrepalli, Fatih Porikli
- Abstract要約: モノクロ映像深度推定のための新しいメモリとアテンションフレームであるMAMOを提案する。
また,MAMoでは,映像を流すときの深度予測を支援するメモリによるモデル拡張を行う。
我々はMAMoが一貫した単分子深度推定ネットワークを改善し,SOTA(State-of-the-art)の精度を新たに設定することを示した。
- 参考スコア(独自算出の注目度): 53.90194273249202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose MAMo, a novel memory and attention frame-work for monocular video
depth estimation. MAMo can augment and improve any single-image depth
estimation networks into video depth estimation models, enabling them to take
advantage of the temporal information to predict more accurate depth. In MAMo,
we augment model with memory which aids the depth prediction as the model
streams through the video. Specifically, the memory stores learned visual and
displacement tokens of the previous time instances. This allows the depth
network to cross-reference relevant features from the past when predicting
depth on the current frame. We introduce a novel scheme to continuously update
the memory, optimizing it to keep tokens that correspond with both the past and
the present visual information. We adopt attention-based approach to process
memory features where we first learn the spatio-temporal relation among the
resultant visual and displacement memory tokens using self-attention module.
Further, the output features of self-attention are aggregated with the current
visual features through cross-attention. The cross-attended features are
finally given to a decoder to predict depth on the current frame. Through
extensive experiments on several benchmarks, including KITTI, NYU-Depth V2, and
DDAD, we show that MAMo consistently improves monocular depth estimation
networks and sets new state-of-the-art (SOTA) accuracy. Notably, our MAMo video
depth estimation provides higher accuracy with lower latency, when omparing to
SOTA cost-volume-based video depth models.
- Abstract(参考訳): モノクロ映像深度推定のための新しいメモリとアテンションフレームであるMAMOを提案する。
MAMOは、任意の単一画像深度推定ネットワークをビデオ深度推定モデルに拡張し、改善し、時間的情報を利用してより正確な深度を予測できる。
また,MAMoでは,映像を流すときの深度予測を支援するメモリによるモデル拡張を行う。
具体的には、前回のインスタンスの視覚的および変位的トークンを記憶する。
これにより、現在のフレームの深さを予測する際に、深度ネットワークが過去から関連する特徴を相互参照することができる。
本稿では,過去と現在の両方の視覚情報に対応するトークンを保持するために,メモリを継続的に更新する新しい手法を提案する。
本稿では,自己認識モジュールを用いた視覚的・変位的メモリトークン間の時空間的関係を初めて学習するプロセスメモリ特徴に対する注意に基づくアプローチを採用する。
さらに、自己注意の出力特徴を、交差注意を通して現在の視覚特徴と集約する。
交差した特徴は最終的にデコーダに与えられ、現在のフレームの深さを予測する。
KITTI,NYU-Depth V2,DDADなどのベンチマーク実験を通じて,MAMOは単分子深度推定ネットワークを一貫して改善し,新しいSOTA(State-of-the-art)の精度を設定することを示した。
特に,当社のMAMoビデオ深度推定は,SOTAコストボリュームに基づくビデオ深度モデルに準じて,低レイテンシで高い精度を実現する。
関連論文リスト
- VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - FutureDepth: Learning to Predict the Future Improves Video Depth Estimation [46.421154770321266]
FutureDepthは、マルチフレームとモーションキューを暗黙的に活用して深度推定を改善するビデオ深度推定手法である。
本論文では,FutureDepthがベースラインモデルを大幅に改善し,既存のビデオ深度推定法より優れ,新しい最先端(SOTA)の精度が設定できることを示す。
論文 参考訳(メタデータ) (2024-03-19T17:55:22Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - Lightweight Monocular Depth Estimation with an Edge Guided Network [34.03711454383413]
本稿では,新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、軽量なエンコーダデコーダアーキテクチャから始め、エッジガイダンスブランチを組み込む。
コンテクスト情報とエッジアテンション特徴を集約するために,トランスフォーマーをベースとした機能アグリゲーションモジュールを設計する。
論文 参考訳(メタデータ) (2022-09-29T14:45:47Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal
Fusion [67.64047158294062]
提案手法は,提案するビデオストリームに対するオンライン多視点深度予測手法である。
前のタイムステップで計算されたシーン形状情報を現在のタイムステップに伝搬する。
評価指標のほとんどにおいて、既存の最先端のマルチビューステレオ手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:54:03Z) - MiniNet: An extremely lightweight convolutional neural network for
real-time unsupervised monocular depth estimation [22.495019810166397]
本稿では,深層ネットワークの機能を実現するために,再帰モジュールを備えた新しい強力なネットワークを提案する。
我々は、ビデオシーケンスからリアルタイムな高性能な教師なし単眼深度予測を行うために、非常に軽量なサイズを維持している。
私たちの新しいモデルは、1つのGPUで約110フレーム/秒(fps)、単一のCPUで37fps、Raspberry Pi 3で2fpsで実行できます。
論文 参考訳(メタデータ) (2020-06-27T12:13:22Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。