Fugu-MT 論文翻訳(概要): Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

論文の概要: Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

arxiv url: http://arxiv.org/abs/2512.00891v1
Date: Sun, 30 Nov 2025 13:44:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-02 19:46:34.487176
Title: Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
Title（参考訳）: 階層型トーケン圧縮によるストリーミングビデオ大言語モデルの高速化
Authors: Yiyu Wang, Xuyang Liu, Xiyan Gui, Xinying Lin, Boxue Yang, Chenfei Liao, Tailai Chen, Linfeng Zhang,
Abstract要約: Streaming Video Large Language Models (VideoLLMs)は、様々なビデオ理解タスクで素晴らしいパフォーマンスを誇示している。連続したビデオストリームから高密度のビジュアルトークンを処理する計算コストが高いため、リアルタイムデプロイメントにおいて大きな課題に直面している。 textbfStreaming textbfToken textbfCompression (textbfSTC)を提案する。
参考スコア（独自算出の注目度）: 12.247532124314402
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Streaming Video Large Language Models (VideoLLMs) have demonstrated impressive performance across various video understanding tasks, but they face significant challenges in real-time deployment due to the high computational cost of processing dense visual tokens from continuous video streams. In streaming video scenarios, the primary bottleneck lies in the Vision Transformer (ViT) encoding stage, where redundant processing of temporally similar frames leads to inefficiency. Additionally, inflated token sequences during LLM pre-filling further exacerbate latency and memory overhead. To address these challenges, we propose \textbf{S}treaming \textbf{T}oken \textbf{C}ompression (\textbf{STC}), a plug-and-play hierarchical framework that seamlessly integrates into existing streaming VideoLLMs, optimizing both ViT encoding and LLM pre-filling stages to accelerate processing. STC introduces two token-level accelerators: \textbf{STC-Cacher}, which reduces ViT encoding overhead by caching and reusing features from temporally similar frames, and \textbf{STC-Pruner}, which compresses the visual token sequence before it enters the LLM, preserving only the most salient tokens based on both spatial and temporal relevance. Extensive experiments on four baseline streaming VideoLLMs across five benchmarks demonstrate that STC outperforms other compression methods. Notably, STC retains up to \textbf{99\%} of accuracy on the ReKV framework while reducing ViT encoding latency and LLM pre-filling latency by \textbf{24.5\%} and \textbf{45.3\%}.
Abstract（参考訳）: Streaming Video Large Language Models (VideoLLMs) は、様々なビデオ理解タスクにおいて素晴らしいパフォーマンスを示しているが、連続したビデオストリームから高精細なビジュアルトークンを処理する計算コストが高いため、リアルタイムデプロイメントにおいて大きな課題に直面している。ストリーミングビデオのシナリオでは、主要なボトルネックはビジョントランスフォーマー(ViT)エンコーディングステージにある。さらに、LLMプリフィル中のインフレーションされたトークンシーケンスは、さらにレイテンシとメモリオーバーヘッドを悪化させる。これらの課題に対処するために、既存のストリーミングビデオLLMにシームレスに統合し、ViTエンコーディングとLLMプリフィルステージの両方を最適化し、処理を高速化するプラグインおよびプレイ階層フレームワークである \textbf{S}treaming \textbf{T}oken \textbf{C}ompression (\textbf{STC})を提案する。 STCは2つのトークンレベルのアクセラレータを導入している: \textbf{STC-Cacher} は、時間的に類似したフレームから機能をキャッシュして再利用することでViTエンコーディングのオーバーヘッドを減らし、 \textbf{STC-Pruner} は LLM に入る前に視覚トークンシーケンスを圧縮し、空間的および時間的関連性に基づいて最も健全なトークンのみを保存する。 5つのベンチマークにまたがる4つのベースラインストリーミングビデオLLMの大規模な実験は、STCが他の圧縮方法よりも優れていることを示した。特に、STCは、ReKVフレームワーク上で最大で \textbf{99\%} の精度を維持し、ViTエンコーディングレイテンシと LLM プリフィルレイテンシを \textbf{24.5\%} と \textbf{45.3\%} で削減している。

関連論文リスト

Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。 SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-24T18:59:05Z)
Less Is More, but Where? Dynamic Token Compression via LLM-Guided Keyframe Prior [31.997025910713077]
LLM-Guided Keyframe prior (DyToK)による動的トークン圧縮を提案する。分析の結果、VLLMの注意層はクエリ条件付き事前情報を自然に符号化し、DyToKはフレーム単位のトークン保持率を動的に調整することがわかった。実験により、DyToKは最先端の効率-精度トレードオフを達成することが示された。
論文参考訳（メタデータ） (2025-12-07T14:42:10Z)
LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs [52.24096832965001]
提案するプログレッシブ・ビジュアル・圧縮(PVC)法を中心としたMLLMであるLLaVA-UHD v3を提案する。 PVC法は、視覚変換器(ViT)にシームレスに統合して、効率的なネイティブ解像度符号化を可能にする。 ViT-UHDをベースとしたLLaVA-UHD v3はQwen2-VLとの競合性能も達成し、TTFTを1.9倍削減した。
論文参考訳（メタデータ） (2025-11-26T08:11:10Z)
SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference [49.84148668264725]
SparseVILAは効率的なVLM推論のための新しいパラダイムであり、前処理と復号の段階で視覚空間を疎結合する。 AWQ最適化推論パイプライン上に構築されたSparseVILAは、プリフィルの最大4.0倍、デコーディングの2.5倍、長文ビデオタスクの2.6倍のエンドツーエンド高速化を実現している。
論文参考訳（メタデータ） (2025-10-20T17:35:47Z)
Memory-efficient Streaming VideoLLMs for Real-time Procedural Video Understanding [51.91097761028129]
本稿では,リアルタイム・プロシージャ・ビデオ理解のためのエンドツーエンドフレームワークであるProVideLLMを紹介する。 ProVideLLMは、2種類のトークンを格納するように構成されたマルチモーダルキャッシュを統合する。 ProVideLLMは、これらのトークンをマルチモーダルキャッシュにインターリーブすることで、メモリと計算のサブ線形スケーリングをビデオ長で保証します。
論文参考訳（メタデータ） (2025-04-10T17:13:08Z)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。 VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文参考訳（メタデータ） (2025-03-12T13:30:40Z)
STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。 DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文参考訳（メタデータ） (2024-11-22T15:55:19Z)
CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文参考訳（メタデータ） (2023-09-27T16:12:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。