論文の概要: EarlyTom: Early Token Compression Completes Fast Video Understanding
- arxiv url: http://arxiv.org/abs/2605.30010v1
- Date: Thu, 28 May 2026 14:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.394785
- Title: EarlyTom: Early Token Compression Completes Fast Video Understanding
- Title(参考訳): アーリーTom:早めのToken Compressionがビデオの理解を高速化
- Authors: Hesong Wang, Xin Jin, Lu Lu, Chenhaowen Li, Jian Chen, Qiang Liu, Huan Wang,
- Abstract要約: ビデオ大言語モデル(ビデオ-LLM)は、ビデオ理解タスクにおいて強力な機能を示している。
近年のアプローチでは、トークン保持率が非常に低く、完全トーケンベースラインに匹敵する精度を維持している。
視覚エンコーダの内部で早期の視覚的トークン圧縮を行う,トレーニングフリーなトークン圧縮フレームワークであるEarlyTomを提案する。
- 参考スコア(独自算出の注目度): 18.40441750844911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video large language models (Video-LLMs) have demonstrated strong capabilities in video understanding tasks. However, their practical deployment is still hindered by the inefficiency introduced by processing massive amounts of visual tokens. Although recent approaches achieve extremely low token retention ratios while maintaining accuracy comparable to full-token baselines, most of them perform compression only at the late stage of prefilling, leaving the efficiency of the vision encoder unoptimized. In this paper, we first show that vision encoding contributes a large portion to the time-to-first-token (TTFT). Therefore, instead of compressing visual tokens only after the vision encoder, performing compression inside the encoder still leaves substantial room for exploration. Based on this insight, we propose EarlyTom, a training-free token compression framework that performs early-stage visual token compression inside the vision encoder, enabling significantly better TTFT reduction and higher throughput. In addition, we introduce a decoupled spatial token selection strategy that improves the overall compression effectiveness. EarlyTom reduces TTFT by up to 2.65x and FLOPs by up to 61% on a single NVIDIA A100 GPU for the LLaVA-OneVision-7B model, while maintaining accuracy comparable to the full-token baseline. These improvements substantially enhance the practicality of deploying Video-LLMs in real-world production scenarios.
- Abstract(参考訳): ビデオ大言語モデル(ビデオ-LLM)は、ビデオ理解タスクにおいて強力な機能を示している。
しかし、その実践的な展開は、大量の視覚トークンを処理することによってもたらされる非効率さによって、いまだに妨げられている。
近年の手法はトークン保持率を極端に低く抑えつつ、完全トーケンベースラインに匹敵する精度を維持しているが、そのほとんどは前処理の後半にのみ圧縮を行い、視覚エンコーダの効率は最適化されていない。
本稿では,視覚符号化がTTFT(Time-to-first-token)に大きく貢献することを示す。
したがって、視覚エンコーダの後にのみ視覚トークンを圧縮する代わりに、エンコーダの内部で圧縮を行うと、探索のためのかなりのスペースが残される。
この知見に基づいて,視覚エンコーダ内で早期の視覚トークン圧縮を行う,トレーニング不要なトークン圧縮フレームワークであるEarlyTomを提案し,TTFTの低減とスループットの向上を実現した。
さらに,空間トークン選択戦略を導入し,全体の圧縮効率を向上させる。
EarlyTomは、LLaVA-OneVision-7BモデルのNVIDIA A100 GPUでTTFTを最大2.65倍、FLOPを最大61%削減する。
これらの改善により、実運用シナリオにおけるビデオ-LLMのデプロイの実用性が大幅に向上した。
関連論文リスト
- Unified Spatio-Temporal Token Scoring for Efficient Video VLMs [61.08183446817756]
トケンプルーニングは視覚言語モデルの計算効率を高めるために不可欠である。
本稿では,視覚トークンを ViT と LLM の両方にわたってプルークする,シンプルで軽量なモジュールである Spatio-Temporal Token Scoring (STTS) を紹介する。
STTSはアーキテクチャ全体の視覚トークンの50%を突破し、トレーニングと推論の両方で効率が62%向上した。
論文 参考訳(メタデータ) (2026-03-18T17:59:56Z) - ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization [59.481950697968706]
残留ベクトル量子化(RVQ)に基づくコンパクトなプログレッシブ生成画像圧縮(ProGIC)を提案する。
RVQでは、ベクトル量子化器の列がステージごとに残余を符号化し、それぞれが独自のコードブックを持つ。
これを奥行き分離可能な畳み込みと小さな注意ブロックに基づく軽量なバックボーンと組み合わせることで、GPUとCPUのみのデバイスに実用的なデプロイを可能にします。
論文 参考訳(メタデータ) (2026-03-03T11:47:05Z) - PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding [55.38256656122857]
トレーニング不要なマルチステージイベントベースのToken圧縮フレームワークであるMETokを提案する。
我々はMETokが情報的視覚トークンを動的に選択することで効率と精度の最適なトレードオフを実現することを示す。
例えば、LongVA-7BをMETokに装備すると、80.6%のFLOPが削減され、93.5%のKVキャッシュメモリが節約される。
論文 参考訳(メタデータ) (2025-06-03T13:19:41Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。