Fugu-MT 論文翻訳(概要): Dual-Signal Adaptive KV-Cache Optimization for Long-Form Video Understanding in Vision-Language Models

論文の概要: Dual-Signal Adaptive KV-Cache Optimization for Long-Form Video Understanding in Vision-Language Models

arxiv url: http://arxiv.org/abs/2602.14236v1
Date: Sun, 15 Feb 2026 17:06:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 16:22:49.82715
Title: Dual-Signal Adaptive KV-Cache Optimization for Long-Form Video Understanding in Vision-Language Models
Title（参考訳）: 視覚言語モデルにおける長期ビデオ理解のためのデュアルシグナル適応KVキャッシュ最適化
Authors: Vishnu Sai, Dheeraj Sai, Srinath B, Girish Varma, Priyesh Shukla,
Abstract要約: VLM(Vision-Language Models)は、長めのビデオコンテンツの処理において重要なメモリボトルネックに直面している。両信号適応型キャッシュを実装した新しい事前最適化フレームワークであるSali-Cacheを提案する。
参考スコア（独自算出の注目度）: 1.0811962707568015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) face a critical memory bottleneck when processing long-form video content due to the linear growth of the Key-Value (KV) cache with sequence length. Existing solutions predominantly employ reactive eviction strategies that compute full attention matrices before discarding tokens, resulting in substantial computational waste. We propose Sali-Cache, a novel a priori optimization framework that implements dual-signal adaptive caching through proactive memory management. By integrating a temporal filter based on optical flow analysis for detecting inter-frame redundancy and a spatial filter leveraging saliency detection for identifying visually significant regions, Sali-Cache intelligently manages memory allocation before entering computationally expensive attention operations. Experimental evaluation on the LLaVA 1.6 architecture demonstrates that our method achieves a 2.20x compression ratio in effective memory usage while maintaining 100% accuracy across BLEU, ROUGE-L, and Exact Match metrics. Furthermore, under identical memory budget constraints, Sali-Cache preserves context-rich features over extended temporal durations without degrading model performance, enabling efficient processing of long-form video content on consumer-grade hardware.
Abstract（参考訳）: Vision-Language Models (VLM) は、キーバリュー(KV)キャッシュの線形成長とシーケンス長による長大なビデオコンテンツ処理において、重要なメモリボトルネックに直面している。既存のソリューションは、トークンを捨てる前に完全な注意行列を計算し、実質的な計算時間の浪費をもたらす、リアクティブな消去戦略を主に採用している。本稿では,2信号適応型キャッシュをプロアクティブメモリ管理により実装した新しいプリミティブ最適化フレームワークであるSali-Cacheを提案する。フレーム間の冗長性を検出するための光フロー解析に基づく時間フィルタと、視覚的に重要な領域を特定するために相性検出を利用する空間フィルタを統合することにより、Sali-Cacheは計算コストの高い注意操作に入る前に、メモリ割り当てをインテリジェントに管理する。 LLaVA 1.6アーキテクチャを実験的に評価した結果, BLEU, ROUGE-L, Exact Matchで100%の精度を維持しつつ, 有効メモリ使用率の2.20倍の圧縮比が得られることがわかった。さらに、同じメモリ予算の制約の下で、Sali-Cacheは、モデル性能を劣化させることなく、長期にわたってコンテキストに富んだ機能を保存し、コンシューマグレードのハードウェア上での長大なビデオコンテンツの効率的な処理を可能にする。

関連論文リスト

Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。 SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-24T18:59:05Z)
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-03-31T11:13:18Z)
VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching [23.52474883720957]
VLA(Vision-Language-Action)モデルは、視覚知覚と言語命令から直接のアクション生成を可能にする強力なマルチモーダル推論能力を示している。本稿では,フレーム間の静的な視覚トークンを適応的にキャッシュ・再利用することにより,計算オーバーヘッドを低減する訓練不要な推論高速化手法であるVLA-Cacheを紹介する。
論文参考訳（メタデータ） (2025-02-04T09:48:14Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。