論文の概要: Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
- arxiv url: http://arxiv.org/abs/2504.02438v2
- Date: Tue, 08 Apr 2025 15:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:41.778636
- Title: Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
- Title(参考訳): 階層的微分蒸留による10Kフレームへのビデオ言語モデルのスケーリング
- Authors: Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan,
- Abstract要約: 混合精度で1時間ビデオを処理する階層型ビデオ言語モデルViLaMPを開発した。
ViLaMPは、4つのビデオ理解ベンチマーク、特に長めのコンテンツで優れたパフォーマンスを誇っている。
特にViLaMPは、単一のNVIDIA A100 GPU上で超長いビデオ(最大10Kフレーム)を処理できる。
- 参考スコア(独自算出の注目度): 38.256412418893554
- License:
- Abstract: Long-form video processing fundamentally challenges vision-language models (VLMs) due to the high computational costs of handling extended temporal sequences. Existing token pruning and feature merging methods often sacrifice critical temporal dependencies or dilute semantic information. We introduce differential distillation, a principled approach that systematically preserves task-relevant information while suppressing redundancy. Based on this principle, we develop ViLaMP, a hierarchical video-language model that processes hour-long videos at ``mixed precision'' through two key mechanisms: (1) differential keyframe selection that maximizes query relevance while maintaining temporal distinctiveness at the frame level and (2) differential feature merging that preserves query-salient features in non-keyframes at the patch level. Hence, ViLaMP retains full information in keyframes while reducing non-keyframes to their most salient features, resembling mixed-precision training. Extensive experiments demonstrate ViLaMP's superior performance across four video understanding benchmarks, particularly on long-form content. Notably, ViLaMP can process ultra-long videos (up to 10K frames) on a single NVIDIA A100 GPU, achieving substantial computational efficiency while maintaining state-of-the-art performance.
- Abstract(参考訳): ロングフォームビデオ処理は、時間的シーケンスの処理に高い計算コストがかかるため、視覚言語モデル(VLM)に基本的に挑戦する。
既存のトークンプルーニングとフィーチャーマージメソッドは、重要な時間的依存関係や希薄なセマンティック情報を犠牲にすることが多い。
本稿では, 冗長性を抑えつつ課題関連情報を体系的に保存する原理的手法である差分蒸留を導入する。
この原理に基づいて,(1)フレームレベルで時間長ビデオを処理する階層型ビデオ言語モデルであるViLaMPを開発する。(1)フレームレベルで時間差分を保ちながらクエリ関連性を最大化する差分キーフレーム選択,(2)パッチレベルではキーフレーム以外のクエリ・サリアントな特徴を保存する差分特徴マージである。
従って、ViLaMPはキーフレームの完全な情報を保持し、非キーフレームを最も精巧な特徴に減らし、混合精度のトレーニングに似ている。
大規模な実験では、4つのビデオ理解ベンチマーク、特に長文コンテンツにおいて、ViLaMPの優れたパフォーマンスが示されている。
特にViLaMPは、単一のNVIDIA A100 GPU上で、超長いビデオ(最大10Kフレーム)を処理でき、最先端のパフォーマンスを維持しながら、相当な計算効率を達成できる。
関連論文リスト
- The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.211803499867639]
ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。
DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。
実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:30:11Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。