論文の概要: HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2601.14724v2
- Date: Mon, 26 Jan 2026 15:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:06.900903
- Title: HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding
- Title(参考訳): HERMES: 効率的なストリーミングビデオ理解のための階層メモリとしてのKVキャッシュ
- Authors: Haowei Zhang, Shudong Yang, Jinlan Fu, See-Kiong Ng, Xipeng Qiu,
- Abstract要約: HERMESは、ビデオストリームのリアルタイムかつ正確な理解のためのトレーニング不要アーキテクチャである。
HermesはコンパクトなKVキャッシュを再利用し、リソース制約下で効率的なストリーミング理解を可能にする。
Hermesはすべてのベンチマークで優れた精度または同等の精度を実現しており、ストリーミングデータセットでは最大11.4%向上している。
- 参考スコア(独自算出の注目度): 92.59317281526239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated significant improvement in offline video understanding. However, extending these capabilities to streaming video inputs, remains challenging, as existing models struggle to simultaneously maintain stable understanding performance, real-time responses, and low GPU memory overhead. To address this challenge, we propose HERMES, a novel training-free architecture for real-time and accurate understanding of video streams. Based on a mechanistic attention investigation, we conceptualize KV cache as a hierarchical memory framework that encapsulates video information across multiple granularities. During inference, HERMES reuses a compact KV cache, enabling efficient streaming understanding under resource constraints. Notably, HERMES requires no auxiliary computations upon the arrival of user queries, thereby guaranteeing real-time responses for continuous video stream interactions, which achieves 10$\times$ faster TTFT compared to prior SOTA. Even when reducing video tokens by up to 68% compared with uniform sampling, HERMES achieves superior or comparable accuracy across all benchmarks, with up to 11.4% gains on streaming datasets.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の最近の進歩は、オフラインビデオ理解において著しく改善されている。
しかし、既存のモデルは安定した理解性能、リアルタイム応答、低GPUメモリオーバーヘッドを同時に維持するのに苦労しているため、これらの機能をストリーミングビデオインプットに拡張することは依然として難しい。
この課題に対処するために、ビデオストリームのリアルタイムかつ正確な理解のための新しいトレーニング不要アーキテクチャであるHERMESを提案する。
機械的注意調査に基づき,KVキャッシュを複数の粒度にまたがる映像情報をカプセル化する階層型メモリフレームワークとして概念化する。
推論中、HERMESはコンパクトなKVキャッシュを再利用し、リソース制約下で効率的なストリーミング理解を可能にする。
特に、HERMESはユーザクエリの到着時に補助的な計算を必要としないため、連続的なビデオストリームインタラクションに対するリアルタイム応答が保証され、従来のSOTAと比較して10$\times$ TTFTが高速になる。
均一サンプリングと比較してビデオトークンを最大68%削減しても、HERMESはすべてのベンチマークで優れた精度または同等の精度を達成し、ストリーミングデータセットでは最大11.4%向上する。
関連論文リスト
- StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression [95.59657871147846]
我々は,ビデオLLMと高度なKVキャッシュの検索と圧縮をシームレスに行うフレームワークである textbfStreamKV を提案する。
公開StreamingVQAベンチマークの実験では、StreamKVが既存のオンラインビデオ-LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2025-11-10T16:25:03Z) - LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval [13.891391928767195]
LiveVLMは、ストリーミング、オンラインビデオ理解、リアルタイムインタラクションに特化したトレーニング不要のフレームワークである。
LiveVLMはストリーミング指向のKVキャッシュを構築し、ビデオストリームをリアルタイムで処理し、長期のビデオの詳細を保持し、冗長なKVを排除する。
新しい質問が提案されると、LiveVLMは、短期と長期の両方の視覚情報を効率的に取得するオンラインの質問回答プロセスを導入する。
論文 参考訳(メタデータ) (2025-05-21T08:47:15Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Streaming Video Question-Answering with In-context Video KV-Cache Retrieval [10.990431921021585]
我々は,効率的なストリーミングビデオ質問応答(StreamingVQA)を可能にするトレーニング不要な手法であるReKVを提案する。
提案手法は,長い動画をストリーミング形式で分析し,ユーザの問い合わせが受信されたら即座に応答することができる。
論文 参考訳(メタデータ) (2025-03-01T15:53:33Z) - VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges [39.666361965650836]
VideoLLaMBは、長いビデオ理解のためのフレームワークである。
SceneTilingアルゴリズムは、ビデオをコヒーレントなセマンティックユニットに分割する。
VideoLLaMBは1つのNvidia A100 GPUを使用して最大320フレームを処理する。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。