論文の概要: V-Rex: Real-Time Streaming Video LLM Acceleration via Dynamic KV Cache Retrieval
- arxiv url: http://arxiv.org/abs/2512.12284v2
- Date: Fri, 19 Dec 2025 08:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 13:33:13.42291
- Title: V-Rex: Real-Time Streaming Video LLM Acceleration via Dynamic KV Cache Retrieval
- Title(参考訳): V-Rex:動的KVキャッシュ検索によるリアルタイムストリーミングビデオLLM高速化
- Authors: Donghyuk Kim, Sejeong Yang, Wonjin Shin, Joo-Young Kim,
- Abstract要約: ビデオ大言語モデル(LLM)のストリーミングは、ビデオキャプション、質問応答、会話エージェント、拡張現実といったリアルタイムなマルチモーダルタスクにますます利用されている。
これらのモデルは、キー値(KV)キャッシュが連続的なストリーミングビデオ入力によって大幅に増大するため、基本的なメモリと計算上の課題に直面している。
我々は,ストリーミングビデオLLM推論におけるアルゴリズム的ボトルネックとハードウェア的ボトルネックに対処する,初のソフトウェアとハードウェアの共同設計アクセラレータであるV-Rexを提案する。
- 参考スコア(独自算出の注目度): 1.677021230191566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming video large language models (LLMs) are increasingly used for real-time multimodal tasks such as video captioning, question answering, conversational agents, and augmented reality. However, these models face fundamental memory and computational challenges because their key-value (KV) caches grow substantially with continuous streaming video input. This process requires an iterative prefill stage, which is a unique feature of streaming video LLMs. Due to its iterative prefill stage, it suffers from significant limitations, including extensive computation, substantial data transfer, and degradation in accuracy. Crucially, this issue is exacerbated for edge deployment, which is the primary target for these models. In this work, we propose V-Rex, the first software-hardware co-designed accelerator that comprehensively addresses both algorithmic and hardware bottlenecks in streaming video LLM inference. At its core, V-Rex introduces ReSV, a training-free dynamic KV cache retrieval algorithm. ReSV exploits temporal and spatial similarity-based token clustering to reduce excessive KV cache memory across video frames. To fully realize these algorithmic benefits, V-Rex offers a compact, low-latency hardware accelerator with a dynamic KV cache retrieval engine (DRE), featuring bit-level and early-exit based computing units. V-Rex achieves unprecedented real-time of 3.9-8.3 FPS and energy-efficient streaming video LLM inference on edge deployment with negligible accuracy loss. While DRE only accounts for 2.2% power and 2.0% area, the system delivers 1.9-19.7x speedup and 3.1-18.5x energy efficiency improvements over AGX Orin GPU. This work is the first to comprehensively tackle KV cache retrieval across algorithms and hardware, enabling real-time streaming video LLM inference on resource-constrained edge devices.
- Abstract(参考訳): ビデオ大言語モデル(LLM)のストリーミングは、ビデオキャプション、質問応答、会話エージェント、拡張現実といったリアルタイムなマルチモーダルタスクにますます利用されている。
しかし、これらのモデルはキー値(KV)キャッシュが連続的なストリーミングビデオ入力によって大幅に増大するため、基本的なメモリと計算上の課題に直面している。
このプロセスは、ストリーミングビデオLLMのユニークな特徴である反復的なプリフィルステージを必要とする。
反復的なプリフィルステージのため、広範な計算、実質的なデータ転送、精度の低下など、重大な制限に悩まされている。
重要なのは、これらのモデルの主要なターゲットであるエッジデプロイメントにおいて、この問題が悪化していることだ。
本研究では,ストリーミングビデオLLM推論におけるアルゴリズム的ボトルネックとハードウェア的ボトルネックに包括的に対処する,世界初のソフトウェアハードウェア共同設計アクセラレータであるV-Rexを提案する。
V-Rexはトレーニング不要な動的KVキャッシュ検索アルゴリズムであるReSVを導入した。
ReSVは時間的および空間的類似性に基づくトークンクラスタリングを利用して、ビデオフレーム間の過剰なKVキャッシュメモリを削減する。
これらのアルゴリズムの利点を完全に実現するために、V-Rexは、ビットレベルと早期出力ベースのコンピューティングユニットを備えた、動的KVキャッシュ検索エンジン(DRE)を備えたコンパクトで低レイテンシのハードウェアアクセラレータを提供する。
V-Rexは前例のない3.9-8.3 FPSとエネルギー効率のよいストリーミングビデオLLM推論を実現している。
DREは2.2%の電力と2.0%の面積しか占めていないが、このシステムはAGX Orin GPUよりも1.9-19.7倍のスピードアップと3.1-18.5倍のエネルギー効率向上を実現している。
この作業は、アルゴリズムとハードウェア間でKVキャッシュの検索に包括的に取り組み、リソース制約のあるエッジデバイス上でリアルタイムストリーミングビデオLLM推論を可能にする最初のものである。
関連論文リスト
- StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression [95.59657871147846]
我々は,ビデオLLMと高度なKVキャッシュの検索と圧縮をシームレスに行うフレームワークである textbfStreamKV を提案する。
公開StreamingVQAベンチマークの実験では、StreamKVが既存のオンラインビデオ-LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2025-11-10T16:25:03Z) - Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification [9.615466029246694]
Video-XL-2は、タスク対応KVスペーシングに基づく長時間ビデオ理解に優れたコスト効率を提供する新しいMLLMである。
NVIDIA A100(80GB)のGPUで1万フレーム以上を処理でき、数千フレームをほんの数秒で処理できる。
論文 参考訳(メタデータ) (2025-06-24T01:19:56Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models [17.29580459404157]
本稿では,斬新で高効率なビデオVAEフレームワークLeanVAEを提案する。
我々のモデルは最大50倍のFLOPと44倍高速な推論速度を提供する。
ビデオ再生・生成におけるLeanVAEの優位性を検証した。
論文 参考訳(メタデータ) (2025-03-18T14:58:59Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Streaming Video Question-Answering with In-context Video KV-Cache Retrieval [10.990431921021585]
我々は,効率的なストリーミングビデオ質問応答(StreamingVQA)を可能にするトレーニング不要な手法であるReKVを提案する。
提案手法は,長い動画をストリーミング形式で分析し,ユーザの問い合わせが受信されたら即座に応答することができる。
論文 参考訳(メタデータ) (2025-03-01T15:53:33Z) - Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。
因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。
キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文 参考訳(メタデータ) (2024-11-25T13:33:41Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [19.900719882624028]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。