論文の概要: Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
- arxiv url: http://arxiv.org/abs/2512.00891v1
- Date: Sun, 30 Nov 2025 13:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.487176
- Title: Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
- Title(参考訳): 階層型トーケン圧縮によるストリーミングビデオ大言語モデルの高速化
- Authors: Yiyu Wang, Xuyang Liu, Xiyan Gui, Xinying Lin, Boxue Yang, Chenfei Liao, Tailai Chen, Linfeng Zhang,
- Abstract要約: Streaming Video Large Language Models (VideoLLMs)は、様々なビデオ理解タスクで素晴らしいパフォーマンスを誇示している。
連続したビデオストリームから高密度のビジュアルトークンを処理する計算コストが高いため、リアルタイムデプロイメントにおいて大きな課題に直面している。
textbfStreaming textbfToken textbfCompression (textbfSTC)を提案する。
- 参考スコア(独自算出の注目度): 12.247532124314402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose \textbf{S}treaming \textbf{T}oken \textbf{C}ompression (\textbf{STC}), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: \textbf{STC-Cacher}, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and \textbf{STC-Pruner}, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to \textbf{99\%} of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by \textbf{24.5\%} and \textbf{45.3\%}.
- Abstract(参考訳): Streaming Video Large Language Models (VideoLLMs) は、様々なビデオ理解タスクにおいて素晴らしいパフォーマンスを示しているが、連続したビデオストリームから高精細なビジュアルトークンを処理する計算コストが高いため、リアルタイムデプロイメントにおいて大きな課題に直面している。
ストリーミングビデオのシナリオでは、主要なボトルネックはビジョントランスフォーマー(ViT)エンコーディングステージにある。
さらに、LLMプリフィル中のインフレーションされたトークンシーケンスは、さらにレイテンシとメモリオーバーヘッドを悪化させる。
これらの課題に対処するために、既存のストリーミングビデオLLMにシームレスに統合し、ViTエンコーディングとLLMプリフィルステージの両方を最適化し、処理を高速化するプラグインおよびプレイ階層フレームワークである \textbf{S}treaming \textbf{T}oken \textbf{C}ompression (\textbf{STC})を提案する。
STCは2つのトークンレベルのアクセラレータを導入している: \textbf{STC-Cacher} は、時間的に類似したフレームから機能をキャッシュして再利用することでViTエンコーディングのオーバーヘッドを減らし、 \textbf{STC-Pruner} は LLM に入る前に視覚トークンシーケンスを圧縮し、空間的および時間的関連性に基づいて最も健全なトークンのみを保存する。
5つのベンチマークにまたがる4つのベースラインストリーミングビデオLLMの大規模な実験は、STCが他の圧縮方法よりも優れていることを示した。
特に、STCは、ReKVフレームワーク上で最大で \textbf{99\%} の精度を維持し、ViTエンコーディングレイテンシと LLM プリフィルレイテンシを \textbf{24.5\%} と \textbf{45.3\%} で削減している。
関連論文リスト
- SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference [49.84148668264725]
SparseVILAは効率的なVLM推論のための新しいパラダイムであり、前処理と復号の段階で視覚空間を疎結合する。
AWQ最適化推論パイプライン上に構築されたSparseVILAは、プリフィルの最大4.0倍、デコーディングの2.5倍、長文ビデオタスクの2.6倍のエンドツーエンド高速化を実現している。
論文 参考訳(メタデータ) (2025-10-20T17:35:47Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。