論文の概要: ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2412.20504v5
- Date: Mon, 24 Mar 2025 02:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 21:22:57.103231
- Title: ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding
- Title(参考訳): ReTaKe: 長時間ビデオ理解のための時間と知識の冗長性を減らす
- Authors: Xiao Wang, Qingyi Si, Jianlong Wu, Shiyu Zhu, Li Cao, Liqiang Nie,
- Abstract要約: ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
- 参考スコア(独自算出の注目度): 55.320254859515714
- License:
- Abstract: Video Large Language Models (VideoLLMs) have made significant strides in video understanding but struggle with long videos due to the limitations of their backbone LLMs. Existing solutions rely on length extrapolation, which is memory-constrained, or visual token compression, which primarily leverages low-level temporal redundancy while overlooking the more effective high-level knowledge redundancy. To address this, we propose $\textbf{ReTaKe}$, a training-free method with two novel modules DPSelect and PivotKV, to jointly reduce both temporal visual redundancy and knowledge redundancy for video compression. To align with the way of human temporal perception, DPSelect identifies keyframes based on inter-frame distance peaks. To leverage LLMs' learned prior knowledge, PivotKV marks the keyframes as pivots and compress non-pivot frames by pruning low-attention tokens in their KV cache. ReTaKe enables VideoLLMs to process 8 times longer frames (up to 2048), outperforming similar-sized models by 3-5% and even rivaling much larger ones on VideoMME, MLVU, LongVideoBench, and LVBench. Moreover, by overlapping compression operations with prefilling, ReTaKe introduces only ~10% prefilling latency overhead while reducing decoding latency by ~20%. Our code is available at https://github.com/SCZwangxiao/video-ReTaKe.
- Abstract(参考訳): Video Large Language Models (VideoLLMs) は、ビデオ理解において大きな進歩を遂げてきたが、背骨LLMの限界のために長いビデオに苦戦している。
既存のソリューションは、メモリ制限された長さ外挿(または視覚トークン圧縮)に依存しており、これは主に低レベルの時間的冗長性を生かし、より効果的な高レベルの知識冗長性を見越す。
そこで本稿では,ビデオ圧縮における時間的視覚的冗長性と知識冗長性を両立させるために,DPSelect と PivotKV の2つの新しいモジュールを用いたトレーニングフリー手法である $\textbf{ReTaKe}$ を提案する。
人間の時間知覚の仕方に合わせて、DPSelectはフレーム間距離のピークに基づいてキーフレームを識別する。
LLMの学習した事前知識を活用するため、PivotKVはキーフレームをピボットとしてマークし、KVキャッシュに低アテンショントークンをプルーニングすることで非ピボットフレームを圧縮する。
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似サイズのモデルを3~5%上回り、ビデオMME、MLVU、LongVideoBench、LVBenchでさらに大きなフレームを競合させる。
さらに、プレフィルを伴う圧縮操作を重複させることで、ReTaKeは遅延オーバーヘッドを最大10%削減し、デコード遅延を約20%削減する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - AdaCM$^2$: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction [10.579335027350263]
AdaCM$2$は、ビデオストリーム上のビデオテキストアライメントに対する適応型クロスモダリティメモリリダクションアプローチである。
最大65%のGPUメモリ消費削減で、LVUデータセットの複数のタスク間で4.5%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-19T18:04:13Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [25.61734041983714]
Video-XLはMLLM固有のキー値スカラー化能力を活用して視覚入力を凝縮する新しい手法である。
ビデオXLの有効性は3つの側面から検証される。第一に、より優れた長ビデオ理解能力を実現し、同等の大きさの最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Use Your Head: Improving Long-Tail Video Recognition [28.506807977493434]
自然に収集されたビデオデータセットや既存のロングテール画像ベンチマークとは異なり、現在のビデオベンチマークは複数のロングテールプロパティで不足している。
本稿では,SSv2 と VideoLT の2つのデータセットからサブセットをサンプリングすることで,長距離認識をよりよく評価するビデオベンチマークを提案する。
論文 参考訳(メタデータ) (2023-04-03T17:09:47Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。