論文の概要: Task-Aware KV Compression For Cost-Effective Long Video Understanding
- arxiv url: http://arxiv.org/abs/2506.21184v1
- Date: Thu, 26 Jun 2025 12:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.076651
- Title: Task-Aware KV Compression For Cost-Effective Long Video Understanding
- Title(参考訳): コスト効果のある長時間ビデオ理解のためのタスク対応KV圧縮
- Authors: Minghao Qin, Yan Shu, Peitian Zhang, Kun Lun, Huaying Yuan, Juenjie Zhou, Shitao Xiao, Bo Zhao, Zheng Liu,
- Abstract要約: 長ビデオ理解(LVU)は、既存のマルチモーダル大言語モデル(MLLM)にとって深刻な課題である。
近年、この問題を緩和するためにKV圧縮を検討したが、しばしば高い圧縮比で大きな情報損失を被る。
本稿では,LVUタスクごとに重要な映像情報を柔軟に保存するVideo-X2Lを紹介する。
- 参考スコア(独自算出の注目度): 7.411142973167644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-video understanding (LVU) remains a severe challenge for existing multimodal large language models (MLLMs), primarily due to the prohibitive computational cost. Recent approaches have explored KV compression to mitigate this issue, but they often suffer from significant information loss at high compression ratios. In this paper, we introduce Video-X^2L, which flexibly preserves critical video information for each LVU task. Video-X^2L involves two key operations. The first one is called bi-level KV compression. During the MLLM's pre-filling stage, Video-X^2L generates two types of compressed KVs: low-compression KVs (L-KVs) to capture fine-grained video details and high-compression KVs (H-KVs) to offer compact video representations. The second one is called selective KV re-loading. During the MLLM's decoding stage, Video-X^2L selectively re-loads L-KVs for the most critical video chunks while using H-KVs for other less important ones. This allows the MLLM to fully utilize task-specific information while maintaining the overall compactness. Video-X^2L is simple yet effective: it is free from additional training and directly compatible with existing KV-compressible MLLMs. We evaluate Video-X^2L with a variety of popular LVU benchmarks, including VideoMME, MLVU, LongVideoBench, and VNBench. Our experiment result shows that Video-X^2L outperforms existing KV-compression methods by a huge advantage while substantially saving the computation cost.
- Abstract(参考訳): 長ビデオ理解(LVU)は、既存のマルチモーダルな大規模言語モデル(MLLM)にとって深刻な課題であり、その主な原因は計算コストの禁止にある。
近年、この問題を緩和するためにKV圧縮を検討したが、しばしば高い圧縮比で大きな情報損失を被る。
本稿では,LVUタスクごとに重要な映像情報を柔軟に保存するVideo-X^2Lを提案する。
Video-X^2L には2つの重要な操作がある。
1つ目は、双方向KV圧縮(bi-level KV compression)である。
MLLMのプリフィル段階では、ビデオX^2Lは圧縮KV(L-KV)と圧縮KV(H-KV)の2種類の圧縮KVを生成する。
2つ目は選択的KV再装填(elective KV re-loading)である。
MLLMの復号段階において、Video-X^2Lは最も重要でないビデオチャンクに対してH-KVを使用しながら、L-KVを選択的に再ロードする。
これによりMLLMは、全体的なコンパクト性を維持しながら、タスク固有の情報を十分に活用することができる。
Video-X^2Lは単純だが有効であり、追加の訓練は不要であり、既存のKV圧縮型MLLMと直接互換性がある。
我々は、ビデオMME、MLVU、LongVideoBench、VNBenchなど、様々なLVUベンチマークを用いて、Video-X^2Lを評価した。
実験結果から, 既存のKV圧縮法よりも高い性能を示し, 計算コストを大幅に削減した。
関連論文リスト
- xKV: Cross-Layer SVD for KV-Cache Compression [8.250015628919098]
長いコンテキストウィンドウを持つ大規模言語モデル(LLM)は強力なアプリケーションを実現するが、メモリ消費のコストがかかる。
近年の研究では、KV-cacheを複数の層から共有表現にマージする試みが試みられている。
支配的な特異ベクトルは、KV-Cacheの複数の層に驚くほどよく整合していることが分かる。
xKVは複数のレイヤのKVキャッシュを共有低ランクサブスペースに統合し、KVキャッシュのサイズを大幅に削減する。
論文 参考訳(メタデータ) (2025-03-24T17:06:37Z) - AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.320254859515714]
MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。
AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。
VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文 参考訳(メタデータ) (2025-03-16T16:14:52Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [25.61734041983714]
Video-XLはMLLM固有のキー値スカラー化能力を活用して視覚入力を凝縮する新しい手法である。
ビデオXLの有効性は3つの側面から検証される。第一に、より優れた長ビデオ理解能力を実現し、同等の大きさの最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。