論文の概要: Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
- arxiv url: http://arxiv.org/abs/2504.02438v3
- Date: Mon, 21 Apr 2025 15:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 12:47:58.02263
- Title: Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
- Title(参考訳): 階層的微分蒸留による10Kフレームへのビデオ言語モデルのスケーリング
- Authors: Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan,
- Abstract要約: 混合精度で1時間ビデオを処理する階層型ビデオ言語モデルViLaMPを開発した。
ViLaMPは、4つのビデオ理解ベンチマーク、特に長めのコンテンツで優れたパフォーマンスを誇っている。
特にViLaMPは、単一のNVIDIA A100 GPU上で超長いビデオ(最大10Kフレーム)を処理できる。
- 参考スコア(独自算出の注目度): 38.256412418893554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long-form video processing fundamentally challenges vision-language models (VLMs) due to the high computational costs of handling extended temporal sequences. Existing token pruning and feature merging methods often sacrifice critical temporal dependencies or dilute semantic information. We introduce differential distillation, a principled approach that systematically preserves task-relevant information while suppressing redundancy. Based on this principle, we develop ViLaMP, a hierarchical video-language model that processes hour-long videos at ``mixed precision'' through two key mechanisms: (1) differential keyframe selection that maximizes query relevance while maintaining temporal distinctiveness at the frame level and (2) differential feature merging that preserves query-salient features in non-keyframes at the patch level. Hence, ViLaMP retains full information in keyframes while reducing non-keyframes to their most salient features, resembling mixed-precision training. Extensive experiments demonstrate ViLaMP's superior performance across four video understanding benchmarks, particularly on long-form content. Notably, ViLaMP can process ultra-long videos (up to 10K frames) on a single NVIDIA A100 GPU, achieving substantial computational efficiency while maintaining state-of-the-art performance.
- Abstract(参考訳): ロングフォームビデオ処理は、時間的シーケンスの処理に高い計算コストがかかるため、視覚言語モデル(VLM)に基本的に挑戦する。
既存のトークンプルーニングとフィーチャーマージメソッドは、重要な時間的依存関係や希薄なセマンティック情報を犠牲にすることが多い。
本稿では, 冗長性を抑えつつ課題関連情報を体系的に保存する原理的手法である差分蒸留を導入する。
この原理に基づいて,(1)フレームレベルで時間長ビデオを処理する階層型ビデオ言語モデルであるViLaMPを開発する。(1)フレームレベルで時間差分を保ちながらクエリ関連性を最大化する差分キーフレーム選択,(2)パッチレベルではキーフレーム以外のクエリ・サリアントな特徴を保存する差分特徴マージである。
従って、ViLaMPはキーフレームの完全な情報を保持し、非キーフレームを最も精巧な特徴に減らし、混合精度のトレーニングに似ている。
大規模な実験では、4つのビデオ理解ベンチマーク、特に長文コンテンツにおいて、ViLaMPの優れたパフォーマンスが示されている。
特にViLaMPは、単一のNVIDIA A100 GPU上で、超長いビデオ(最大10Kフレーム)を処理でき、最先端のパフォーマンスを維持しながら、相当な計算効率を達成できる。
関連論文リスト
- FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding [17.71123451197036]
ビデオデータの複雑さとコンテキスト処理の制限は、長いビデオの理解を妨げる。
本稿では,複数のフレームを単一の表現に統合する新しいフレームワークであるFiLA-Videoを提案する。
FiLA-Videoは、従来の方法に比べて、長時間ビデオ理解において優れた効率と精度を実現している。
論文 参考訳(メタデータ) (2025-04-29T03:09:46Z) - STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。