論文の概要: Memory-efficient Streaming VideoLLMs for Real-time Procedural Video Understanding
- arxiv url: http://arxiv.org/abs/2504.13915v1
- Date: Thu, 10 Apr 2025 17:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.658125
- Title: Memory-efficient Streaming VideoLLMs for Real-time Procedural Video Understanding
- Title(参考訳): リアルタイムプロシージャ映像理解のためのメモリ効率のよいストリーミングビデオLLM
- Authors: Dibyadip Chatterjee, Edoardo Remelli, Yale Song, Bugra Tekin, Abhay Mittal, Bharat Bhatnagar, Necati Cihan Camgöz, Shreyas Hampali, Eric Sauser, Shugao Ma, Angela Yao, Fadime Sener,
- Abstract要約: 本稿では,リアルタイム・プロシージャ・ビデオ理解のためのエンドツーエンドフレームワークであるProVideLLMを紹介する。
ProVideLLMは、2種類のトークンを格納するように構成されたマルチモーダルキャッシュを統合する。
ProVideLLMは、これらのトークンをマルチモーダルキャッシュにインターリーブすることで、メモリと計算のサブ線形スケーリングをビデオ長で保証します。
- 参考スコア(独自算出の注目度): 51.91097761028129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ProVideLLM, an end-to-end framework for real-time procedural video understanding. ProVideLLM integrates a multimodal cache configured to store two types of tokens - verbalized text tokens, which provide compressed textual summaries of long-term observations, and visual tokens, encoded with DETR-QFormer to capture fine-grained details from short-term observations. This design reduces token count by 22x over existing methods in representing one hour of long-term observations while effectively encoding fine-granularity of the present. By interleaving these tokens in our multimodal cache, ProVideLLM ensures sub-linear scaling of memory and compute with video length, enabling per-frame streaming inference at 10 FPS and streaming dialogue at 25 FPS, with a minimal 2GB GPU memory footprint. ProVideLLM also sets new state-of-the-art results on six procedural tasks across four datasets.
- Abstract(参考訳): 本稿では,リアルタイム・プロシージャ・ビデオ理解のためのエンドツーエンドフレームワークであるProVideLLMを紹介する。
ProVideLLMは、2種類のトークンを格納するように構成されたマルチモーダルキャッシュを統合している。
この設計により、1時間の長期観測を表現しつつ、現在の粒度を効果的に符号化し、既存の手法よりも22倍のトークン数を削減できる。
ProVideLLMは、これらのトークンをマルチモーダルキャッシュにインターリーブすることで、メモリのサブ線形スケーリングを保証し、ビデオ長で計算し、フレーム単位のストリーミング推論を10FPSで、ストリーミングダイアログを25FPSで、最小2GBのGPUメモリフットプリントで実現します。
ProVideLLMはまた、4つのデータセットにわたる6つの手続きタスクに対して、最先端の結果も設定する。
関連論文リスト
- Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation [38.256412418893554]
混合精度で1時間ビデオを処理する階層型ビデオ言語モデルViLaMPを開発した。
ViLaMPは、4つのビデオ理解ベンチマーク、特に長めのコンテンツで優れたパフォーマンスを誇っている。
特にViLaMPは、単一のNVIDIA A100 GPU上で超長いビデオ(最大10Kフレーム)を処理できる。
論文 参考訳(メタデータ) (2025-04-03T09:55:09Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
時間的推論と大規模マルチモーダルデータ処理の必要性から,Long Video Question Answering (LVQA) は困難である。
非常に長い動画を効率的に処理する検索拡張生成フレームワークであるUMaTを紹介する。
UMaTは、マルチモーダル統合、長文ビデオ理解、スパース情報検索において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。