論文の概要: StreamingTOM: Streaming Token Compression for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2510.18269v1
- Date: Tue, 21 Oct 2025 03:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.850817
- Title: StreamingTOM: Streaming Token Compression for Efficient Video Understanding
- Title(参考訳): StreamingTOM: 効率的なビデオ理解のためのストリーミングトークン圧縮
- Authors: Xueyi Chen, Keda Tao, Kele Shao, Huan Wang,
- Abstract要約: 既存のアプローチはLLM後のkv-cacheのみを規制し、コストのかかるLLM前のプリフィルは変わらない。
StreamingTOMは,LLM前とLLM後の両方のボトルネックに,予測可能なレイテンシで対処する,トレーニングフリーでプラグイン&プレイの2段階フレームワークです。
実験では, 従来のSOTAと比較して, 15.7 時間で kv-cache 圧縮, 12 時間で低ピークメモリ, 2 時間で速い TTFT 圧縮を実現している。
- 参考スコア(独自算出の注目度): 6.9203477336374775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike offline processing, streaming video vision-language models face two fundamental constraints: causality and accumulation. Causality prevents access to future frames that offline methods exploit, while accumulation causes tokens to grow unbounded, creating efficiency bottlenecks. However, existing approaches only regulate post-LLM kv-cache, leaving costly pre-LLM prefill unchanged. We introduce StreamingTOM, a training-free, plug-and-play two-stage framework that addresses both pre-LLM and post-LLM bottlenecks with predictable latency. Causal Temporal Reduction imposes a fixed per-frame budget and selects tokens based on adjacent-frame changes and token saliency, drastically reducing per-frame prefill cost by processing only a compact subset of visual tokens per frame instead of all visual tokens. Online Quantized Memory stores tokens in 4-bit format, retrieves relevant groups on demand, and dequantizes them, keeping the active kv-cache bounded regardless of stream length. Experiments demonstrate our method achieves $15.7\times$ kv-cache compression, $1.2\times$ lower peak memory and $2\times$ faster TTFT compared to prior SOTA. StreamingTOM maintains state-of-the-art accuracy among training-free methods with an average of $63.8\%$ on offline benchmarks and $55.8\%/3.7$ on RVS. These results highlight the practical benefits of our two-stage approach for efficient streaming video understanding with bounded growth.
- Abstract(参考訳): オフライン処理とは異なり、ストリーミングビデオビジョン言語モデルは因果関係と蓄積という2つの基本的な制約に直面している。
因果性は、オフラインメソッドが悪用する将来のフレームへのアクセスを防ぎ、一方、蓄積によってトークンが無制限に成長し、効率のボトルネックが生じる。
しかし、既存のアプローチはLLM後のkv-cacheのみを規制し、コストのかかるLLM前のプリフィルは変わらないままである。
StreamingTOMは,LLM前とLLM後の両方のボトルネックに,予測可能なレイテンシで対処する,トレーニングフリーでプラグイン&プレイの2段階フレームワークです。
因果的時間削減はフレーム単位の固定予算を課し、隣接するフレームの変更とトークンサリエンシに基づいてトークンを選択し、フレーム単位のプリフィルコストを大幅に削減する。
Online Quantized Memoryはトークンを4ビット形式で保存し、要求に応じて関連するグループを検索し、それらを復号化し、ストリーム長に関わらずアクティブなkv-cacheをバウンドする。
実験では,従来のSOTAと比較して,kv-cache圧縮が15.7ドル,ピークメモリが12ドル,TTFTが2ドルであった。
StreamingTOMは、オフラインベンチマークで平均63.8\%、RVSで平均55.8\%/3.7ドルのトレーニングフリーメソッドで最先端の精度を維持している。
これらの結果は,有界成長を伴う効率的なストリーミングビデオ理解のための2段階的アプローチの実践的メリットを浮き彫りにしている。
関連論文リスト
- Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - ConsensusDrop: Fusing Visual and Cross-Modal Saliency for Efficient Vision Language Models [4.273730624882391]
視覚言語モデル(VLM)は、LLMが数百のほとんど冗長な視覚トークンを処理するため、高価である。
いずれの信号も十分ではないことが示される: それらを融合することで、一意的な視覚トークン選択(ランキング)に比べて、一貫して性能が向上する。
textbfConsensusDropは、視覚エンコーダのサリエンシをクエリ対応のクロスアテンションと整合させることにより、アンフコンセンサスランキングを導出する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T00:28:55Z) - HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding [92.59317281526239]
HERMESは、ビデオストリームのリアルタイムかつ正確な理解のためのトレーニング不要アーキテクチャである。
HermesはコンパクトなKVキャッシュを再利用し、リソース制約下で効率的なストリーミング理解を可能にする。
Hermesはすべてのベンチマークで優れた精度または同等の精度を実現しており、ストリーミングデータセットでは最大11.4%向上している。
論文 参考訳(メタデータ) (2026-01-21T07:26:15Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - CacheFlow: Compressive Streaming Memory for Efficient Long-Form Video Understanding [0.0]
CacheFlowは、Dynamic Token Droppingと長期メモリを組み合わせた、トレーニング不要のパイプラインである。
オンラインのフレーム単位の処理により、当社のアプローチはライブストリーミングVQAに基本的に適しています。
推測において、コンセンサスに基づく検索機構は、Top-Kで最も関連性の高いブロックのみを検索する。
論文 参考訳(メタデータ) (2025-11-17T17:56:14Z) - Attention Is All You Need for KV Cache in Diffusion LLMs [36.94369617373333]
Elastic-Cacheは、拡散大言語モデルのための適応型層対応キャッシュ更新を実行する。
提案手法は,既存の信頼度に基づく手法よりも高いスループット(GSM8Kで6.8時間)を実現する。
論文 参考訳(メタデータ) (2025-10-16T17:59:48Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - Post-Training Sparse Attention with Double Sparsity [44.772593893621085]
ダブルスパシティ」は、KVキャッシュアクセスを減らすことで、このボトルネックを軽減するために設計された、訓練後スパースアテンション技術である。
Double Sparsityは、自己アテンションを計算するための重要なトークンのみを活用するトークンのスペシャリティと、重要なトークンを識別するための重要な機能チャネルを使用するチャネルのスペシャリティを組み合わせたものだ。
オフローディングにより、16.3$times$のデコード速度を、256Kのシークエンス長の最先端のソリューションと比較して達成する。
論文 参考訳(メタデータ) (2024-08-11T18:40:36Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。