論文の概要: LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval
- arxiv url: http://arxiv.org/abs/2505.15269v1
- Date: Wed, 21 May 2025 08:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.325179
- Title: LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval
- Title(参考訳): LiveVLM: ストリーミング指向のKVキャッシュと検索による効率的なオンラインビデオ理解
- Authors: Zhenyu Ning, Guangda Liu, Qihao Jin, Wenchao Ding, Minyi Guo, Jieru Zhao,
- Abstract要約: LiveVLMは、ストリーミング、オンラインビデオ理解、リアルタイムインタラクションに特化したトレーニング不要のフレームワークである。
LiveVLMはストリーミング指向のKVキャッシュを構築し、ビデオストリームをリアルタイムで処理し、長期のビデオの詳細を保持し、冗長なKVを排除する。
新しい質問が提案されると、LiveVLMは、短期と長期の両方の視覚情報を効率的に取得するオンラインの質問回答プロセスを導入する。
- 参考スコア(独自算出の注目度): 13.891391928767195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in Video Large Language Models (Video LLMs) have enabled models to process long video sequences and demonstrate remarkable performance. Nonetheless, studies predominantly focus on offline video question answering, neglecting memory usage and response speed that are essential in various real-world applications, such as Deepseek services, autonomous driving, and robotics. To mitigate these challenges, we propose $\textbf{LiveVLM}$, a training-free framework specifically designed for streaming, online video understanding and real-time interaction. Unlike existing works that process videos only after one question is posed, LiveVLM constructs an innovative streaming-oriented KV cache to process video streams in real-time, retain long-term video details and eliminate redundant KVs, ensuring prompt responses to user queries. For continuous video streams, LiveVLM generates and compresses video key-value tensors (video KVs) to reserve visual information while improving memory efficiency. Furthermore, when a new question is proposed, LiveVLM incorporates an online question-answering process that efficiently fetches both short-term and long-term visual information, while minimizing interference from redundant context. Extensive experiments demonstrate that LiveVLM enables the foundation LLaVA-OneVision model to process 44$\times$ number of frames on the same device, and achieves up to 5$\times$ speedup in response speed compared with SoTA online methods at an input of 256 frames, while maintaining the same or better model performance.
- Abstract(参考訳): ビデオ大言語モデル(Video Large Language Models, ビデオLLM)の最近の進歩により, 長いビデオシーケンスを処理し, 顕著な性能を示すことができる。
それでも、研究は主にオフラインのビデオ質問応答、メモリ使用の無視、Deepseekサービス、自動運転、ロボット工学など、さまざまな現実世界のアプリケーションに不可欠な応答速度に焦点を当てている。
これらの課題を軽減するために、ストリーミング、オンラインビデオ理解、リアルタイムインタラクションに特化したトレーニング不要のフレームワークである$\textbf{LiveVLM}$を提案する。
1つの質問が提示された後にのみビデオを処理する既存の作業とは異なり、LiveVLMは革新的なストリーミング指向のKVキャッシュを構築し、ビデオストリームをリアルタイムで処理し、長期的なビデオの詳細を保持し、冗長なKVを排除し、ユーザクエリへの迅速な応答を保証する。
連続的なビデオストリームでは、LiveVLMはビデオキー値テンソル(ビデオKV)を生成して圧縮し、視覚情報を保存し、メモリ効率を向上する。
さらに,新たな質問が提案される時,LiveVLMは,冗長なコンテキストからの干渉を最小限に抑えながら,短期的および長期的な視覚情報を効率的に取得するオンライン質問応答処理を取り入れている。
大規模な実験により、LiveVLMは基盤となるLLaVA-OneVisionモデルを同じデバイス上で44$\times$フレームの処理を可能にし、同じまたはより良いモデル性能を維持しながら、256フレームのSoTAオンラインメソッドと比較して最大5$\times$レスポンススピードアップを達成する。
関連論文リスト
- VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Streaming Video Question-Answering with In-context Video KV-Cache Retrieval [10.990431921021585]
我々は,効率的なストリーミングビデオ質問応答(StreamingVQA)を可能にするトレーニング不要な手法であるReKVを提案する。
提案手法は,長い動画をストリーミング形式で分析し,ユーザの問い合わせが受信されたら即座に応答することができる。
論文 参考訳(メタデータ) (2025-03-01T15:53:33Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。