論文の概要: Flash-VStream: Efficient Real-Time Understanding for Long Video Streams
- arxiv url: http://arxiv.org/abs/2506.23825v1
- Date: Mon, 30 Jun 2025 13:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.068802
- Title: Flash-VStream: Efficient Real-Time Understanding for Long Video Streams
- Title(参考訳): Flash-VStream: 長いビデオストリームのための効率的なリアルタイム理解
- Authors: Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Xiaojie Jin,
- Abstract要約: Flash-VStreamは、非常に長いビデオを処理し、リアルタイムでユーザークエリに応答できるビデオ言語モデルである。
既存のモデルと比較して、Flash-VStreamは推論遅延を大幅に削減する。
- 参考スコア(独自算出の注目度): 64.25549822010372
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Benefiting from the advances in large language models and cross-modal alignment, existing multimodal large language models have achieved prominent performance in image and short video understanding. However, the understanding of long videos is still challenging, as their long-context nature results in significant computational and memory overhead. Most existing work treats long videos in the same way as short videos, which is inefficient for real-world applications and hard to generalize to even longer videos. To address these issues, we propose Flash-VStream, an efficient video language model capable of processing extremely long videos and responding to user queries in real time. Particularly, we design a Flash Memory module, containing a low-capacity context memory to aggregate long-context temporal information and model the distribution of information density, and a high-capacity augmentation memory to retrieve detailed spatial information based on this distribution. Compared to existing models, Flash-VStream achieves significant reductions in inference latency. Extensive experiments on long video benchmarks and comprehensive video benchmarks, i.e., EgoSchema, MLVU, LVBench, MVBench and Video-MME, demonstrate the state-of-the-art performance and outstanding efficiency of our method. Code is available at https://github.com/IVGSZ/Flash-VStream.
- Abstract(参考訳): 大規模言語モデルとクロスモーダルアライメントの進歩により、既存のマルチモーダルな大規模言語モデルは、画像および短いビデオ理解において顕著なパフォーマンスを達成している。
しかし、長いビデオの理解は、長いコンテキストの性質が計算とメモリのオーバーヘッドを著しく引き起こすため、依然として困難である。
これは現実世界のアプリケーションでは非効率であり、さらに長いビデオには一般化が難しい。
これらの問題に対処するために,非常に長い動画を処理し,リアルタイムにユーザクエリに応答できる効率的なビデオ言語モデルであるFlash-VStreamを提案する。
特に、長文時間情報を集約し、情報密度の分布をモデル化する低容量コンテキストメモリと、この分布に基づいて詳細な空間情報を検索する高容量拡張メモリを含むFlashメモリモジュールを設計する。
既存のモデルと比較して、Flash-VStreamは推論遅延を大幅に削減する。
EgoSchema, MLVU, LVBench, MVBench, Video-MMEといった長大なビデオベンチマークと包括的ビデオベンチマークに関する広範な実験により, この手法の最先端性能と優れた効率を実証した。
コードはhttps://github.com/IVGSZ/Flash-VStream.comで入手できる。
関連論文リスト
- LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval [13.891391928767195]
LiveVLMは、ストリーミング、オンラインビデオ理解、リアルタイムインタラクションに特化したトレーニング不要のフレームワークである。
LiveVLMはストリーミング指向のKVキャッシュを構築し、ビデオストリームをリアルタイムで処理し、長期のビデオの詳細を保持し、冗長なKVを排除する。
新しい質問が提案されると、LiveVLMは、短期と長期の両方の視覚情報を効率的に取得するオンラインの質問回答プロセスを導入する。
論文 参考訳(メタデータ) (2025-05-21T08:47:15Z) - Long-VMNet: Accelerating Long-Form Video Understanding via Fixed Memory [5.311777874655448]
Long-Video Memory Network、Long-VMNetは、新しいビデオ理解手法である。
Long-VMNetは、識別トークンを識別するニューラルサンプリングを利用することにより、効率の向上を実現している。
本研究では,Rest-ADLデータセットを用いて,長文ビデオ検索と回答のための推論時間を18~75倍改善したことを示す。
論文 参考訳(メタデータ) (2025-03-17T20:25:41Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。