論文の概要: Less Is More, but Where? Dynamic Token Compression via LLM-Guided Keyframe Prior
- arxiv url: http://arxiv.org/abs/2512.06866v1
- Date: Sun, 07 Dec 2025 14:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.564198
- Title: Less Is More, but Where? Dynamic Token Compression via LLM-Guided Keyframe Prior
- Title(参考訳): LLM-Guidedキーフレームによる動的トーケン圧縮
- Authors: Yulin Li, Haokun Gui, Ziyang Fan, Junjie Wang, Bin Kang, Bin Chen, Zhuotao Tian,
- Abstract要約: LLM-Guided Keyframe prior (DyToK)による動的トークン圧縮を提案する。
分析の結果、VLLMの注意層はクエリ条件付き事前情報を自然に符号化し、DyToKはフレーム単位のトークン保持率を動的に調整することがわかった。
実験により、DyToKは最先端の効率-精度トレードオフを達成することが示された。
- 参考スコア(独自算出の注目度): 31.997025910713077
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Video Large Language Models (VLLMs) have achieved remarkable video understanding capabilities, yet face critical efficiency bottlenecks due to quadratic computational growth with lengthy visual token sequences of long videos. While existing keyframe sampling methods can improve temporal modeling efficiency, additional computational cost is introduced before feature encoding, and the binary frame selection paradigm is found suboptimal. Therefore, in this work, we propose Dynamic Token compression via LLM-guided Keyframe prior (DyToK), a training-free paradigm that enables dynamic token compression by harnessing VLLMs' inherent attention mechanisms. Our analysis reveals that VLLM attention layers naturally encoding query-conditioned keyframe priors, by which DyToK dynamically adjusts per-frame token retention ratios, prioritizing semantically rich frames while suppressing redundancies. Extensive experiments demonstrate that DyToK achieves state-of-the-art efficiency-accuracy tradeoffs. DyToK shows plug-and-play compatibility with existing compression methods, such as VisionZip and FastV, attaining 4.3x faster inference while preserving accuracy across multiple VLLMs, such as LLaVA-OneVision and Qwen2.5-VL. Code is available at https://github.com/yu-lin-li/DyToK .
- Abstract(参考訳): ビデオ大言語モデル(VLLM)の最近の進歩は、ビデオ理解能力に優れていたが、長いビデオの長い視覚トークンシーケンスによる2次計算の増大により、重要な効率ボトルネックに直面している。
既存のキーフレームサンプリング手法は時間的モデリング効率を向上させることができるが、特徴符号化の前にさらなる計算コストを導入し、バイナリフレーム選択パラダイムが最適であることを示す。
そこで本研究では,VLLMs固有の注意機構を活用することで,動的トークン圧縮を可能にするトレーニングフリーパラダイムである,LLM誘導キーフレーム前処理(DyToK)による動的トークン圧縮を提案する。
そこでDyToKはフレーム単位のトークン保持率を動的に調整し,意味的に豊かなフレームを優先し,冗長性を抑える。
大規模な実験は、DyToKが最先端の効率-精度トレードオフを達成することを示した。
DyToKは、VisionZipやFastVのような既存の圧縮手法とのプラグアンドプレイ互換性を示し、LLaVA-OneVisionやQwen2.5-VLといった複数のVLLMの精度を維持しながら4.3倍高速な推論を実現している。
コードはhttps://github.com/yu-lin-li/DyToK で入手できる。
関連論文リスト
- FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。