論文の概要: ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2412.20504v2
- Date: Sun, 05 Jan 2025 14:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:04:13.167337
- Title: ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding
- Title(参考訳): ReTaKe: 長時間ビデオ理解のための時間と知識の冗長性を減らす
- Authors: Xiao Wang, Qingyi Si, Jianlong Wu, Shiyu Zhu, Li Cao, Liqiang Nie,
- Abstract要約: 長時間ビデオ理解のための時間的視覚的冗長性と知識的冗長性を両立させるトレーニングフリー手法である$bfReTaKe$を導入する。
DPSelectは、人間の映像知覚と密接に一致している視覚的特徴に基づいて、局所的な最大ピーク距離を持つビデオを特定する。
PivotKVはピボットとしてVideoBenchsを使用し、注意スコアの低い非テキストトークンに対してKVキャッシュ圧縮を実行する。
- 参考スコア(独自算出の注目度): 55.320254859515714
- License:
- Abstract: Video Large Language Models (VideoLLMs) have achieved remarkable progress in video understanding. However, existing VideoLLMs often inherit the limitations of their backbone LLMs in handling long sequences, leading to challenges for long video understanding. Common solutions either simply uniformly sample videos' frames or compress visual tokens, which focus primarily on low-level temporal visual redundancy, overlooking high-level knowledge redundancy. This limits the achievable compression rate with minimal loss. To this end. we introduce a training-free method, $\textbf{ReTaKe}$, containing two novel modules DPSelect and PivotKV, to jointly model and reduce both temporal visual redundancy and knowledge redundancy for long video understanding. Specifically, DPSelect identifies keyframes with local maximum peak distance based on their visual features, which are closely aligned with human video perception. PivotKV employs the obtained keyframes as pivots and conducts KV-Cache compression for the non-pivot tokens with low attention scores, which are derived from the learned prior knowledge of LLMs. Experiments on benchmarks VideoMME, MLVU, and LVBench, show that ReTaKe can support 4x longer video sequences with minimal performance loss (<1%) and outperform all similar-size VideoLLMs with 3%-5%, even surpassing or on par with much larger ones. Our code is available at https://github.com/SCZwangxiao/video-ReTaKe
- Abstract(参考訳): ビデオ言語モデル (VideoLLMs) はビデオ理解において顕著な進歩を遂げている。
しかしながら、既存の VideoLLM は長いシーケンスを扱う際のバックボーン LLM の制限を継承することが多く、長いビデオ理解の課題に繋がる。
一般的な解決策は、ビデオのフレームを一様にサンプリングするか、高レベルの知識の冗長性を見越して、主に低レベルの時間的視覚的冗長性に焦点を当てたビジュアルトークンを圧縮することである。
これにより、達成可能な圧縮速度を最小限の損失で制限する。
この目的のために。
DPSelect と PivotKV の2つの新しいモジュールを含むトレーニング不要な $\textbf{ReTaKe}$ を導入し、長時間ビデオ理解のための時間的視覚的冗長性と知識冗長性を共同でモデル化・削減する。
具体的には、DPSelectは、人間の映像知覚と密接に一致している視覚的特徴に基づいて、局所的な最大ピーク距離を持つキーフレームを識別する。
PivotKVは取得したキーフレームをピボットとして使用し、低アテンションスコアを持つ非ピボットトークンに対してKVキャッシュ圧縮を行う。
VideoMME、MLVU、LVBenchのベンチマーク実験では、ReTaKeはパフォーマンス損失が最小限 (1%) の4倍の長いビデオシーケンスをサポートでき、似たようなビデオLLMを3%-5%で上回ったり、はるかに大きなものよりも上回ったり、上回ったりできる。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKeで利用可能です。
関連論文リスト
- AdaCM$^2$: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction [10.579335027350263]
AdaCM$2$は、ビデオストリーム上のビデオテキストアライメントに対する適応型クロスモダリティメモリリダクションアプローチである。
最大65%のGPUメモリ消費削減で、LVUデータセットの複数のタスク間で4.5%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-19T18:04:13Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - Use Your Head: Improving Long-Tail Video Recognition [28.506807977493434]
自然に収集されたビデオデータセットや既存のロングテール画像ベンチマークとは異なり、現在のビデオベンチマークは複数のロングテールプロパティで不足している。
本稿では,SSv2 と VideoLT の2つのデータセットからサブセットをサンプリングすることで,長距離認識をよりよく評価するビデオベンチマークを提案する。
論文 参考訳(メタデータ) (2023-04-03T17:09:47Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。