論文の概要: METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding
- arxiv url: http://arxiv.org/abs/2506.02850v1
- Date: Tue, 03 Jun 2025 13:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.695164
- Title: METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding
- Title(参考訳): METok:マルチステージイベントベースのToken Compression for Efficient Long Video Understanding
- Authors: Mengyue Wang, Shuo Chen, Kristian Kersting, Volker Tresp, Yunpu Ma,
- Abstract要約: トレーニング不要なマルチステージイベントベースのToken圧縮フレームワークであるMETokを提案する。
我々はMETokが情報的視覚トークンを動的に選択することで効率と精度の最適なトレードオフを実現することを示す。
例えば、LongVA-7BをMETokに装備すると、80.6%のFLOPが削減され、93.5%のKVキャッシュメモリが節約される。
- 参考スコア(独自算出の注目度): 41.60539587719931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Video Large Language Models (VLLMs) have significantly enhanced their ability to understand video content. Nonetheless, processing long videos remains challenging due to high computational demands and the redundancy present in the visual data. In this work, we propose METok, a training-free, Multi-stage Event-based Token compression framework designed to accelerate VLLMs' inference while preserving accuracy. METok progressively eliminates redundant visual tokens across three critical stages: (1) event-aware compression during vision encoding, (2) hierarchical token pruning in the prefilling stage based on semantic alignment and event importance, and (3) a decoding-stage KV Cache optimization that further reduces memory consumption. Our experiments on diverse video benchmarks demonstrate that METok achieves an optimal trade-off between efficiency and accuracy by dynamically selecting informative visual tokens. For instance, equipping LongVA-7B with METok realizes an 80.6% FLOPs reduction and 93.5% KV Cache memory savings, all while maintaining comparable or even superior accuracy.
- Abstract(参考訳): ビデオ大言語モデル(VLLM)の最近の進歩は、ビデオコンテンツを理解する能力を大幅に強化している。
それでも、高い計算要求と視覚データに存在する冗長性のために、長いビデオの処理は依然として困難である。
本稿では,VLLMの精度を保ちながら,VLLMの推論を高速化するための,トレーニング不要なマルチステージイベントベースのToken圧縮フレームワークMETokを提案する。
METokは、(1)視覚符号化中のイベント認識圧縮、(2)セマンティックアライメントとイベント重要度に基づくプリフィルステージにおける階層的トークンプルーニング、(3)メモリ消費をさらに削減するデコードステージKVキャッシュ最適化の3つの重要な段階にわたって、冗長な視覚トークンを段階的に除去する。
多様なビデオベンチマーク実験により,METokは情報的視覚トークンを動的に選択することで,効率と精度の最適なトレードオフを実現することを示した。
例えば、METokにLongVA-7Bを組み込むことで、80.6%のFLOPと93.5%のKVキャッシュメモリの節約を実現している。
関連論文リスト
- An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.320254859515714]
MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。
AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。
VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文 参考訳(メタデータ) (2025-03-16T16:14:52Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。
我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。
本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T18:59:40Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z) - VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。