論文の概要: Sharp Eyes and Memory for VideoLLMs: Information-Aware Visual Token Pruning for Efficient and Reliable VideoLLM Reasoning
- arxiv url: http://arxiv.org/abs/2511.08003v1
- Date: Wed, 12 Nov 2025 01:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.591139
- Title: Sharp Eyes and Memory for VideoLLMs: Information-Aware Visual Token Pruning for Efficient and Reliable VideoLLM Reasoning
- Title(参考訳): Sharp Eyes and Memory for VideoLLMs: 効果的で信頼性の高いビデオLLM推論のための情報認識型ビジュアルトーケンプルーニング
- Authors: Jialong Qin, Xin Zou, Di Lu, Yibo Yan, Xuming Hu,
- Abstract要約: SharpVは、視覚トークンとKVキャッシュの適応的なプルーニングのための最小限かつ効率的な方法である。
SharpVは、露出したアテンションスコアにアクセスすることなく動作する最初の2段階のプルーニングフレームワークである。
- 参考スコア(独自算出の注目度): 36.489592987293314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Video Large Language Models (VideoLLMs) suffer from quadratic computational complexity and key-value cache scaling, due to their reliance on processing excessive redundant visual tokens. To address this problem, we propose SharpV, a minimalist and efficient method for adaptive pruning of visual tokens and KV cache. Different from most uniform compression approaches, SharpV dynamically adjusts pruning ratios based on spatial-temporal information. Remarkably, this adaptive mechanism occasionally achieves performance gains over dense models, offering a novel paradigm for adaptive pruning. During the KV cache pruning stage, based on observations of visual information degradation, SharpV prunes degraded visual features via a self-calibration manner, guided by similarity to original visual features. In this way, SharpV achieves hierarchical cache pruning from the perspective of information bottleneck, offering a new insight into VideoLLMs' information flow. Experiments on multiple public benchmarks demonstrate the superiority of SharpV. Moreover, to the best of our knowledge, SharpV is notably the first two-stage pruning framework that operates without requiring access to exposed attention scores, ensuring full compatibility with hardware acceleration techniques like Flash Attention.
- Abstract(参考訳): 現在のビデオ大言語モデル(VideoLLMs)は、過度の冗長な視覚トークン処理に依存しているため、2次計算の複雑さとキー値キャッシュのスケーリングに悩まされている。
この問題に対処するために、視覚トークンとKVキャッシュの適応的プルーニングを最小限かつ効率的に行うSharpVを提案する。
多くの均一な圧縮手法とは異なり、シャープVは時空間情報に基づいてプルーニング比を動的に調整する。
注目すべきは、この適応的なメカニズムは、高密度モデルよりもパフォーマンスの向上を達成し、適応的なプルーニングのための新しいパラダイムを提供することである。
KVキャッシュプルーニングの段階では、視覚情報劣化の観測に基づいて、SharpV prunesは自己校正方法で視覚特徴を劣化させ、元の視覚特徴と類似性によって誘導した。
このように、SharpVは情報ボトルネックの観点から階層的なキャッシュプルーニングを実現し、VideoLLMsの情報フローに関する新たな洞察を提供する。
複数の公開ベンチマークの実験は、SharpVの優位性を示している。
さらに、私たちの知る限りでは、SharpVは、明らかに注目されるスコアへのアクセスを必要とせずに動作し、Flash Attentionのようなハードウェアアクセラレーション技術との完全な互換性を確保する、最初の2段階のプルーニングフレームワークである。
関連論文リスト
- A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.49953824684853]
人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。
データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。
強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文 参考訳(メタデータ) (2025-08-03T02:15:43Z) - Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features [24.33252753245426]
我々は、相互注意マップにおけるスパースの性質を利用して、冗長な視覚的特徴を選択的に創り出す。
我々のモデルは、ベンチマークパリティを達成しながら、推論レイテンシとメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2025-04-01T09:10:32Z) - AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。
本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-31T11:13:18Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching [23.52474883720957]
VLA(Vision-Language-Action)モデルは、視覚知覚と言語命令から直接のアクション生成を可能にする強力なマルチモーダル推論能力を示している。
本稿では,フレーム間の静的な視覚トークンを適応的にキャッシュ・再利用することにより,計算オーバーヘッドを低減する訓練不要な推論高速化手法であるVLA-Cacheを紹介する。
論文 参考訳(メタデータ) (2025-02-04T09:48:14Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。