論文の概要: FastVID: Dynamic Density Pruning for Fast Video Large Language Models
- arxiv url: http://arxiv.org/abs/2503.11187v1
- Date: Fri, 14 Mar 2025 08:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:18.479005
- Title: FastVID: Dynamic Density Pruning for Fast Video Large Language Models
- Title(参考訳): FastVID: 高速ビデオ大言語モデルのための動的密度プルーニング
- Authors: Leqi Shen, Guoqiang Gong, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Guiguang Ding,
- Abstract要約: 我々は,FastVIDと呼ばれる高速ビデオLLMのための動的密度計算法を提案する。
FastVIDは、ビデオを時間的に順序付けられたセグメントに分割して、時間構造を保存し、重要な視覚情報を維持するために密度ベースのトークンプルーニング戦略を適用する。
本手法は時間的・視覚的整合性を維持しながら計算オーバーヘッドを大幅に削減する。
- 参考スコア(独自算出の注目度): 38.267065642416554
- License:
- Abstract: Video Large Language Models have shown impressive capabilities in video comprehension, yet their practical deployment is hindered by substantial inference costs caused by redundant video tokens. Existing pruning techniques fail to fully exploit the spatiotemporal redundancy inherent in video data. To bridge this gap, we perform a systematic analysis of video redundancy from two perspectives: temporal context and visual context. Leveraging this insight, we propose Dynamic Density Pruning for Fast Video LLMs termed FastVID. Specifically, FastVID dynamically partitions videos into temporally ordered segments to preserve temporal structure and applies a density-based token pruning strategy to maintain essential visual information. Our method significantly reduces computational overhead while maintaining temporal and visual integrity. Extensive evaluations show that FastVID achieves state-of-the-art performance across various short- and long-video benchmarks on leading Video LLMs, including LLaVA-OneVision and LLaVA-Video. Notably, FastVID effectively prunes 90% of video tokens while retaining 98.0% of LLaVA-OneVision's original performance. The code is available at https://github.com/LunarShen/FastVID.
- Abstract(参考訳): ビデオ大言語モデルは、ビデオ理解において印象的な能力を示しているが、その実践的展開は、冗長なビデオトークンによって引き起こされるかなりの推論コストによって妨げられている。
既存のプルーニング技術では、ビデオデータに固有の時空間冗長性を十分に活用できない。
このギャップを埋めるために、時間的コンテキストと視覚的コンテキストという2つの視点からビデオ冗長性の体系的解析を行う。
この知見を生かして,FastVIDと呼ばれる高速ビデオLLMのための動的密度計算法を提案する。
具体的には、FastVIDは、ビデオを時間的に順序付けられたセグメントに動的に分割し、時間的構造を保存し、重要な視覚情報を維持するために密度ベースのトークンプルーニング戦略を適用する。
本手法は時間的・視覚的整合性を維持しながら計算オーバーヘッドを大幅に削減する。
大規模な評価では、LLaVA-OneVisionやLLaVA-Videoなど、主要なビデオLLM上での様々なショートビデオとロングビデオのベンチマークにおいて、FastVIDは最先端のパフォーマンスを達成している。
特に、FastVIDは、LLaVA-OneVisionのオリジナルパフォーマンスの98.0%を維持しながら、ビデオトークンの90%を実質的にプルークする。
コードはhttps://github.com/LunarShen/FastVIDで入手できる。
関連論文リスト
- ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
長時間ビデオ理解のための時間的視覚的冗長性と知識的冗長性を両立させるトレーニングフリー手法である$bfReTaKe$を導入する。
DPSelectは、人間の映像知覚と密接に一致している視覚的特徴に基づいて、局所的な最大ピーク距離を持つビデオを特定する。
PivotKVはピボットとしてVideoBenchsを使用し、注意スコアの低い非テキストトークンに対してKVキャッシュ圧縮を実行する。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance [44.08446730529495]
トークン圧縮と命令対応の視覚的特徴集約を同時に実現する新しいプーリング戦略を提案する。
我々のモデルはPPLLaVA(Prompt-guided Pooling LLaVA)と呼ばれる。
論文 参考訳(メタデータ) (2024-11-04T17:50:36Z) - SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation [153.46240555355408]
SlowFast-VGenはアクション駆動長ビデオ生成のための新しいデュアルスピード学習システムである。
本稿では,世界ダイナミクスのスローラーニングのための条件付きビデオ拡散モデルを提案する。
本研究では,内在学習ループを外在学習ループにシームレスに統合する低速学習ループアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:55:52Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。