論文の概要: AccKV: Towards Efficient Audio-Video LLMs Inference via Adaptive-Focusing and Cross-Calibration KV Cache Optimization
- arxiv url: http://arxiv.org/abs/2511.11106v1
- Date: Fri, 14 Nov 2025 09:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.51987
- Title: AccKV: Towards Efficient Audio-Video LLMs Inference via Adaptive-Focusing and Cross-Calibration KV Cache Optimization
- Title(参考訳): AccKV: Adaptive-Focusing と Cross-Calibration KV キャッシュ最適化による効率的なオーディオビデオLLM推論を目指して
- Authors: Zhonghua Jiang, Kui Chen, Kunxi Li, Keting Yin, Yiyun Zhou, Zhaode Wang, Chengfei Lv, Shengyu Zhang,
- Abstract要約: 簡単な最適化戦略は、タスクに基づいてオーディオやビデオのKVキャッシュに選択的に集中し、保持することである。
その結果, AV-LLM の高層構造に対する注意は, タスクに厳密に依存していないことがわかった。
AccKVは,効率的なAV-LLM推定のための適応型・クロスキャリブレーションKVキャッシュ最適化フレームワークである。
- 参考スコア(独自算出の注目度): 16.684664451074088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Audio-Video Large Language Models (AV-LLMs) have enhanced their capabilities in tasks like audio-visual question answering and multimodal dialog systems. Video and audio introduce an extended temporal dimension, resulting in a larger key-value (KV) cache compared to static image embedding. A naive optimization strategy is to selectively focus on and retain KV caches of audio or video based on task. However, in the experiment, we observed that the attention of AV-LLMs to various modalities in the high layers is not strictly dependent on the task. In higher layers, the attention of AV-LLMs shifts more towards the video modality. In addition, we also found that directly integrating temporal KV of audio and spatial-temporal KV of video may lead to information confusion and significant performance degradation of AV-LLMs. If audio and video are processed indiscriminately, it may also lead to excessive compression or reservation of a certain modality, thereby disrupting the alignment between modalities. To address these challenges, we propose AccKV, an Adaptive-Focusing and Cross-Calibration KV cache optimization framework designed specifically for efficient AV-LLMs inference. Our method is based on layer adaptive focusing technology, selectively focusing on key modalities according to the characteristics of different layers, and enhances the recognition of heavy hitter tokens through attention redistribution. In addition, we propose a Cross-Calibration technique that first integrates inefficient KV caches within the audio and video modalities, and then aligns low-priority modalities with high-priority modalities to selectively evict KV cache of low-priority modalities. The experimental results show that AccKV can significantly improve the computational efficiency of AV-LLMs while maintaining accuracy.
- Abstract(参考訳): 近年のAV-LLM(Audio-Video Large Language Models)は,音声-視覚的質問応答やマルチモーダル対話システムなどのタスクにおいて,その能力を高めている。
ビデオとオーディオは時間次元が拡張され、静的な画像埋め込みに比べてキー値(KV)のキャッシュが大きくなる。
簡単な最適化戦略は、タスクに基づいてオーディオやビデオのKVキャッシュに選択的に集中し、保持することである。
しかし, 実験の結果, AV-LLMs の高層層における様々なモダリティに対する注意は, タスクに厳密に依存していないことがわかった。
上位層では、AV-LLMの注意はビデオのモダリティにシフトする。
さらに,ビデオの時空間KVと音声の時空間KVを直接統合することで,情報混乱とAV-LLMの大幅な性能劣化につながる可能性が示唆された。
音声とビデオが無差別に処理されると、過剰な圧縮や一定のモダリティの保留につながる可能性があり、それによってモダリティ間のアライメントが破壊される。
これらの課題に対処するために,AccKVを提案する。これは,効率的なAV-LLMの推論に特化して設計された適応Focusing and Cross-Calibration KVキャッシュ最適化フレームワークである。
本手法は層適応集束技術に基づいて,各層の特徴に応じて鍵のモダリティに選択的に焦点を合わせ,注意再分配による重み付きトークンの認識を向上させる。
さらに,非効率なKVキャッシュをオーディオとビデオのモダリティにまず統合し,低優先度のモダリティを高優先度のモダリティに整列させ,低優先度のモダリティを選択的に排除するクロスキャリブレーション手法を提案する。
実験の結果, AccKVは精度を維持しつつ, AV-LLMの計算効率を著しく向上させることができることがわかった。
関連論文リスト
- KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。
本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-31T11:13:18Z) - Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model [16.22530358172138]
このフレームワークは、整列したトレーニングデータセグメントを選択するためのスコアリング機構を実装している。
音声ベースの基礎モデルであるWhisperと、デュアルエンコーダ構造におけるビデオ解析のためのDINOv2を統合している。
AudioCaps、VALOR、VGGSoundの評価は、提案したモデルアーキテクチャの有効性を示す。
論文 参考訳(メタデータ) (2025-03-12T09:48:38Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。