論文の概要: Online Video Depth Anything: Temporally-Consistent Depth Prediction with Low Memory Consumption
- arxiv url: http://arxiv.org/abs/2510.09182v1
- Date: Fri, 10 Oct 2025 09:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.596478
- Title: Online Video Depth Anything: Temporally-Consistent Depth Prediction with Low Memory Consumption
- Title(参考訳): オンラインビデオの深度予測:低メモリ消費による時間的持続的深度予測
- Authors: Johann-Friedrich Feiden, Tim Küchler, Denis Zavadski, Bogdan Savchynskyy, Carsten Rother,
- Abstract要約: Video Depth Anything (VDA)は、長いビデオシーケンスで強いパフォーマンスを示している。
大規模言語モデル(LLM)を用いたオンラインVDA(oVDA)
我々のoVDA法は、競合するオンラインビデオ深度推定法を、精度とVRAM使用率の両方で上回っている。
- 参考スコア(独自算出の注目度): 12.826467483311433
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Depth estimation from monocular video has become a key component of many real-world computer vision systems. Recently, Video Depth Anything (VDA) has demonstrated strong performance on long video sequences. However, it relies on batch-processing which prohibits its use in an online setting. In this work, we overcome this limitation and introduce online VDA (oVDA). The key innovation is to employ techniques from Large Language Models (LLMs), namely, caching latent features during inference and masking frames at training. Our oVDA method outperforms all competing online video depth estimation methods in both accuracy and VRAM usage. Low VRAM usage is particularly important for deployment on edge devices. We demonstrate that oVDA runs at 42 FPS on an NVIDIA A100 and at 20 FPS on an NVIDIA Jetson edge device. We will release both, code and compilation scripts, making oVDA easy to deploy on low-power hardware.
- Abstract(参考訳): モノクロ映像からの深度推定は、多くの現実世界のコンピュータビジョンシステムにおいて重要な要素となっている。
近年,VDA (Video Depth Anything) は長大な映像系列に対して高い性能を示した。
しかし、オンライン環境での使用を禁止しているバッチ処理に依存している。
本稿では,この制限を克服し,オンラインVDA(oVDA)を導入する。
重要なイノベーションは、Large Language Models(LLMs)のテクニックを採用することだ。
我々のoVDA法は、競合するオンラインビデオ深度推定法を、精度とVRAM使用率の両方で上回っている。
VRAM使用率が低いことは、エッジデバイスへのデプロイにおいて特に重要である。
我々は、oVDAがNVIDIA A100上で42FPS、NVIDIA Jetsonエッジデバイス上で20FPSで動作することを示した。
コードとコンパイルスクリプトの両方をリリースし、oVDAを低消費電力のハードウェアに簡単にデプロイできるようにします。
関連論文リスト
- Long-VMNet: Accelerating Long-Form Video Understanding via Fixed Memory [5.311777874655448]
Long-Video Memory Network、Long-VMNetは、新しいビデオ理解手法である。
Long-VMNetは、識別トークンを識別するニューラルサンプリングを利用することにより、効率の向上を実現している。
本研究では,Rest-ADLデータセットを用いて,長文ビデオ検索と回答のための推論時間を18~75倍改善したことを示す。
論文 参考訳(メタデータ) (2025-03-17T20:25:41Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - UVEB: A Large-scale Benchmark and Baseline Towards Real-World Underwater Video Enhancement [17.98919244870724]
最初の大規模高解像度水中ビデオ強調ベンチマーク(UVEB)を構築した。
1,308対のビデオシーケンスと453,000以上の高解像度のUHD(Ultra-High-Definition)4Kフレームペアを含んでいる。
UVE-Netは、現在のフレーム情報を畳み込みカーネルに変換し、隣接するフレームに渡して効率的なフレーム間情報交換を行う。
論文 参考訳(メタデータ) (2024-04-22T19:29:12Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文 参考訳(メタデータ) (2021-04-29T17:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。