論文の概要: HoliTom: Holistic Token Merging for Fast Video Large Language Models
- arxiv url: http://arxiv.org/abs/2505.21334v2
- Date: Wed, 28 May 2025 10:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.794329
- Title: HoliTom: Holistic Token Merging for Fast Video Large Language Models
- Title(参考訳): HoliTom: 高速ビデオ大言語モデルのためのホロスティックなトークンマージ
- Authors: Kele Shao, Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang,
- Abstract要約: ビデオ言語モデル(ビデオLLM)は、ビデオ理解において優れるが、冗長なビデオトークンによる計算不効率に直面する。
HoliTomは、新しいトレーニング不要な全体的トークンフレームワークである。
また,内部LLMトークンの類似性に基づくマージ手法を導入する。
- 参考スコア(独自算出の注目度): 26.78285189552602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video large language models (video LLMs) excel at video comprehension but face significant computational inefficiency due to redundant video tokens. Existing token pruning methods offer solutions. However, approaches operating within the LLM (inner-LLM pruning), such as FastV, incur intrinsic computational overhead in shallow layers. In contrast, methods performing token pruning before the LLM (outer-LLM pruning) primarily address spatial redundancy within individual frames or limited temporal windows, neglecting the crucial global temporal dynamics and correlations across longer video sequences. This leads to sub-optimal spatio-temporal reduction and does not leverage video compressibility fully. Crucially, the synergistic potential and mutual influence of combining these strategies remain unexplored. To further reduce redundancy, we introduce HoliTom, a novel training-free holistic token merging framework. HoliTom employs outer-LLM pruning through global redundancy-aware temporal segmentation, followed by spatial-temporal merging to reduce visual tokens by over 90%, significantly alleviating the LLM's computational burden. Complementing this, we introduce a robust inner-LLM token similarity-based merging approach, designed for superior performance and compatibility with outer-LLM pruning. Evaluations demonstrate our method's promising efficiency-performance trade-off on LLaVA-OneVision-7B, reducing computational costs to 6.9% of FLOPs while maintaining 99.1% of the original performance. Furthermore, we achieve a 2.28x reduction in Time-To-First-Token (TTFT) and a 1.32x acceleration in decoding throughput, highlighting the practical benefits of our integrated pruning approach for efficient video LLMs inference.
- Abstract(参考訳): ビデオ大言語モデル(ビデオLLM)は、ビデオ理解において優れるが、冗長なビデオトークンによる計算不効率に直面する。
既存のトークンプルーニング手法は解決策を提供する。
しかし、FastV のような LLM (inner-LLM プルーニング) 内で動作するアプローチは、浅い層で固有の計算オーバーヘッドを発生させる。
対照的に、LLM(outer-LLM pruning)の前にトークンプルーニングを行う手法は、主に個々のフレームや限られた時間窓内の空間的冗長性に対処し、より長いビデオシーケンスにまたがる重要なグローバルな時間的ダイナミクスと相関を無視する。
これにより、部分最適時空間縮小が起こり、ビデオ圧縮性を完全に活用することができない。
重要なことは、これらの戦略を組み合わせることの相乗的ポテンシャルと相互の影響は未解明のままである。
冗長性をさらに低減するため,新しいトレーニング不要な全体的トークンマージフレームワークであるHoliTomを紹介した。
HoliTomは、グローバルな冗長性を認識した時間的セグメンテーションを通じて外部LLMプルーニングを採用し、次いで空間的時間的マージによって視覚トークンを90%以上削減し、LLMの計算負担を大幅に軽減した。
そこで本研究では,内部LLMトークンの類似性に基づくマージ方式を導入し,性能と外部LLMプルーニングとの互換性を向上する。
LLaVA-OneVision-7Bでは,計算コストをFLOPの6.9%に削減し,元の性能の99.1%を維持した。
さらに、TTFT(Time-To-First-Token)の2.28倍の削減とデコードスループットの1.32倍の高速化を実現し、効率的なビデオLLM推論のための統合プルーニングアプローチの実用的メリットを強調した。
関連論文リスト
- DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。