論文の概要: StreamingTOM: Streaming Token Compression for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2510.18269v1
- Date: Tue, 21 Oct 2025 03:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.850817
- Title: StreamingTOM: Streaming Token Compression for Efficient Video Understanding
- Title(参考訳): StreamingTOM: 効率的なビデオ理解のためのストリーミングトークン圧縮
- Authors: Xueyi Chen, Keda Tao, Kele Shao, Huan Wang,
- Abstract要約: 既存のアプローチはLLM後のkv-cacheのみを規制し、コストのかかるLLM前のプリフィルは変わらない。
StreamingTOMは,LLM前とLLM後の両方のボトルネックに,予測可能なレイテンシで対処する,トレーニングフリーでプラグイン&プレイの2段階フレームワークです。
実験では, 従来のSOTAと比較して, 15.7 時間で kv-cache 圧縮, 12 時間で低ピークメモリ, 2 時間で速い TTFT 圧縮を実現している。
- 参考スコア(独自算出の注目度): 6.9203477336374775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike offline processing, streaming video vision-language models face two fundamental constraints: causality and accumulation. Causality prevents access to future frames that offline methods exploit, while accumulation causes tokens to grow unbounded, creating efficiency bottlenecks. However, existing approaches only regulate post-LLM kv-cache, leaving costly pre-LLM prefill unchanged. We introduce StreamingTOM, a training-free, plug-and-play two-stage framework that addresses both pre-LLM and post-LLM bottlenecks with predictable latency. Causal Temporal Reduction imposes a fixed per-frame budget and selects tokens based on adjacent-frame changes and token saliency, drastically reducing per-frame prefill cost by processing only a compact subset of visual tokens per frame instead of all visual tokens. Online Quantized Memory stores tokens in 4-bit format, retrieves relevant groups on demand, and dequantizes them, keeping the active kv-cache bounded regardless of stream length. Experiments demonstrate our method achieves $15.7\times$ kv-cache compression, $1.2\times$ lower peak memory and $2\times$ faster TTFT compared to prior SOTA. StreamingTOM maintains state-of-the-art accuracy among training-free methods with an average of $63.8\%$ on offline benchmarks and $55.8\%/3.7$ on RVS. These results highlight the practical benefits of our two-stage approach for efficient streaming video understanding with bounded growth.
- Abstract(参考訳): オフライン処理とは異なり、ストリーミングビデオビジョン言語モデルは因果関係と蓄積という2つの基本的な制約に直面している。
因果性は、オフラインメソッドが悪用する将来のフレームへのアクセスを防ぎ、一方、蓄積によってトークンが無制限に成長し、効率のボトルネックが生じる。
しかし、既存のアプローチはLLM後のkv-cacheのみを規制し、コストのかかるLLM前のプリフィルは変わらないままである。
StreamingTOMは,LLM前とLLM後の両方のボトルネックに,予測可能なレイテンシで対処する,トレーニングフリーでプラグイン&プレイの2段階フレームワークです。
因果的時間削減はフレーム単位の固定予算を課し、隣接するフレームの変更とトークンサリエンシに基づいてトークンを選択し、フレーム単位のプリフィルコストを大幅に削減する。
Online Quantized Memoryはトークンを4ビット形式で保存し、要求に応じて関連するグループを検索し、それらを復号化し、ストリーム長に関わらずアクティブなkv-cacheをバウンドする。
実験では,従来のSOTAと比較して,kv-cache圧縮が15.7ドル,ピークメモリが12ドル,TTFTが2ドルであった。
StreamingTOMは、オフラインベンチマークで平均63.8\%、RVSで平均55.8\%/3.7ドルのトレーニングフリーメソッドで最先端の精度を維持している。
これらの結果は,有界成長を伴う効率的なストリーミングビデオ理解のための2段階的アプローチの実践的メリットを浮き彫りにしている。
関連論文リスト
- Attention Is All You Need for KV Cache in Diffusion LLMs [36.94369617373333]
Elastic-Cacheは、拡散大言語モデルのための適応型層対応キャッシュ更新を実行する。
提案手法は,既存の信頼度に基づく手法よりも高いスループット(GSM8Kで6.8時間)を実現する。
論文 参考訳(メタデータ) (2025-10-16T17:59:48Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - Post-Training Sparse Attention with Double Sparsity [44.772593893621085]
ダブルスパシティ」は、KVキャッシュアクセスを減らすことで、このボトルネックを軽減するために設計された、訓練後スパースアテンション技術である。
Double Sparsityは、自己アテンションを計算するための重要なトークンのみを活用するトークンのスペシャリティと、重要なトークンを識別するための重要な機能チャネルを使用するチャネルのスペシャリティを組み合わせたものだ。
オフローディングにより、16.3$times$のデコード速度を、256Kのシークエンス長の最先端のソリューションと比較して達成する。
論文 参考訳(メタデータ) (2024-08-11T18:40:36Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。