論文の概要: SpecVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning
- arxiv url: http://arxiv.org/abs/2508.16201v2
- Date: Thu, 28 Aug 2025 06:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 11:47:01.179366
- Title: SpecVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning
- Title(参考訳): SpecVLM: Verifier-Guided Token PruningによるビデオLLMの投機的復号化
- Authors: Yicheng Ji, Jun Zhang, Heming Xia, Jinpeng Chen, Lidan Shou, Gang Chen, Huan Li,
- Abstract要約: 本稿では,Vid-LLM向けに設計されたトレーニング不要な投機的復号化フレームワークSpecVLMを紹介する。
SpecVLMは、精度を犠牲にすることなく効率的な投機を可能にするために、最大90%のビデオトークンを作成できる。
LLaVA-OneVision-72Bの2.68$times$デコードスピードアップとQwen2.5-VL-32Bの2.11$times$スピードアップを実現している。
- 参考スコア(独自算出の注目度): 27.000912841279597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video large language models (Vid-LLMs) have shown strong capabilities in understanding video content. However, their reliance on dense video token representations introduces substantial memory and computational overhead in both prefilling and decoding. To mitigate the information loss of recent video token reduction methods and accelerate the decoding stage of Vid-LLMs losslessly, we introduce SpecVLM, a training-free speculative decoding (SD) framework tailored for Vid-LLMs that incorporates staged video token pruning. Building on our novel finding that the draft model's speculation exhibits low sensitivity to video token pruning, SpecVLM prunes up to 90% of video tokens to enable efficient speculation without sacrificing accuracy. To achieve this, we performs a two-stage pruning process: Stage I selects highly informative tokens guided by attention signals from the verifier (target model), while Stage II prunes remaining redundant ones in a spatially uniform manner. Extensive experiments on four video understanding benchmarks demonstrate the effectiveness and robustness of SpecVLM, which achieves up to 2.68$\times$ decoding speedup for LLaVA-OneVision-72B and 2.11$\times$ speedup for Qwen2.5-VL-32B. Code is available at https://github.com/zju-jiyicheng/SpecVLM.
- Abstract(参考訳): ビデオ大言語モデル(Vid-LLM)は、ビデオコンテンツを理解する上で強力な能力を示している。
しかし、高密度なビデオトークン表現への依存は、プリフィルとデコードの両方において、メモリと計算上のオーバーヘッドを大幅に引き起こす。
近年のビデオトークン削減手法の情報損失を軽減し、Vid-LLMの復号段階を損なうことなく加速するために、ステージ化されたビデオトークンプルーニングを組み込んだVid-LLMのためのトレーニング不要な投機的復号(SD)フレームワークSpecVLMを導入する。
SpecVLMは、ビデオトークンのプルーニングに対する感度が低く、90%の動画トークンをプルーニングし、精度を犠牲にすることなく効率的な推測を可能にする。
ステージIは、検証者(ターゲットモデル)から注目信号で導かれる高情報性トークンを選択し、ステージIIは余分なトークンを空間的に均一に残す。
4つのビデオ理解ベンチマークの大規模な実験は、LLaVA-OneVision-72Bの2.68$\times$デコードスピードアップとQwen2.5-VL-32Bの2.11$\times$スピードアップを達成するSpecVLMの有効性と堅牢性を示している。
コードはhttps://github.com/zju-jiyicheng/SpecVLMで入手できる。
関連論文リスト
- Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - CoPE-VideoLM: Codec Primitives For Efficient Video Language Models [56.76440182038839]
ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は、ビデオの時間的ダイナミクスを理解するためのAIシステムである。
現在の方法では、マクロレベルのイベントとマイクロレベルの詳細の両方を見逃すことができるサンプリングを使用する。
多くのフレームに対して高価なフルイメージエンコーディングを必要とせず、ビデオ冗長性と疎結合性を符号化するビデオプリミティブを活用することを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:57:31Z) - FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging [27.981298261747288]
FlashVIDはビデオ大言語モデル(VLLM)のためのトレーニング不要のアクセラレーションフレームワークである
基本的なビデオ表現のために最も代表的なトークンを選択し、その後、微細な時間的冗長性にTree-based Stemporal Tokenging (TSTM)を適用する。
FlashVIDは、長いビデオフレームを拡張するためのトレーニングフリーでプラグアンドプレイモジュールとして機能し、Qwen2.5-VLに入力されるビデオフレームを10倍増やすことができる。
論文 参考訳(メタデータ) (2026-02-08T15:56:46Z) - Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval [57.88666884515147]
ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。
OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。
また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2025-12-09T09:40:20Z) - video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory [51.03819128505358]
Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
論文 参考訳(メタデータ) (2025-10-13T08:20:15Z) - METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding [55.38256656122857]
トレーニング不要なマルチステージイベントベースのToken圧縮フレームワークであるMETokを提案する。
我々はMETokが情報的視覚トークンを動的に選択することで効率と精度の最適なトレードオフを実現することを示す。
例えば、LongVA-7BをMETokに装備すると、80.6%のFLOPが削減され、93.5%のKVキャッシュメモリが節約される。
論文 参考訳(メタデータ) (2025-06-03T13:19:41Z) - Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs [25.13186579764434]
Sparse-to-Dense(StD)は、2つの異なるモジュールを統合する新しいデコード戦略である。
StDはチューニング不要のプラグイン・アンド・プレイのソリューションで、最大1.94$times$ビデオ処理のウォールタイムスピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-25T14:09:28Z) - LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding [29.719450799231705]
VLM(Vision-Language Models)は、多フレーム入力によってフレームレベルの理解能力を得る。
ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、視覚機能内の時間的関係をキャプチャするが、高品質のビデオテキストデータセットの不足によって制限される。
本稿では,クエリ・アテンション・ビデオ圧縮機構を備えた新しい手法である軽量ビデオ圧縮(LVC)を提案する。
論文 参考訳(メタデータ) (2025-04-09T12:51:10Z) - FastVID: Dynamic Density Pruning for Fast Video Large Language Models [38.267065642416554]
我々は,FastVIDと呼ばれる高速ビデオLLMの密度決定法を提案する。
FastVIDは、ビデオを時間的に順序付けられたセグメントに分割して、時間構造を保存する。
本手法は時間的・視覚的整合性を維持しながら計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-03-14T08:33:08Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。