論文の概要: FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging
- arxiv url: http://arxiv.org/abs/2602.08024v1
- Date: Sun, 08 Feb 2026 15:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.935552
- Title: FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging
- Title(参考訳): FlashVID: トレーニングなしツリーベース時空間トケマージによる効率的なビデオ大言語モデル
- Authors: Ziyang Fan, Keyu Chen, Ruilong Xing, Yulin Li, Li Jiang, Zhuotao Tian,
- Abstract要約: FlashVIDはビデオ大言語モデル(VLLM)のためのトレーニング不要のアクセラレーションフレームワークである
基本的なビデオ表現のために最も代表的なトークンを選択し、その後、微細な時間的冗長性にTree-based Stemporal Tokenging (TSTM)を適用する。
FlashVIDは、長いビデオフレームを拡張するためのトレーニングフリーでプラグアンドプレイモジュールとして機能し、Qwen2.5-VLに入力されるビデオフレームを10倍増やすことができる。
- 参考スコア(独自算出の注目度): 27.981298261747288
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although Video Large Language Models (VLLMs) have shown remarkable capabilities in video understanding, they are required to process high volumes of visual tokens, causing significant computational inefficiency. Existing VLLMs acceleration frameworks usually compress spatial and temporal redundancy independently, which overlooks the spatiotemporal relationships, thereby leading to suboptimal spatiotemporal compression. The highly correlated visual features are likely to change in spatial position, scale, orientation, and other attributes over time due to the dynamic nature of video. Building on this insight, we introduce FlashVID, a training-free inference acceleration framework for VLLMs. Specifically, FlashVID utilizes Attention and Diversity-based Token Selection (ADTS) to select the most representative tokens for basic video representation, then applies Tree-based Spatiotemporal Token Merging (TSTM) for fine-grained spatiotemporal redundancy elimination. Extensive experiments conducted on three representative VLLMs across five video understanding benchmarks demonstrate the effectiveness and generalization of our method. Notably, by retaining only 10% of visual tokens, FlashVID preserves 99.1% of the performance of LLaVA-OneVision. Consequently, FlashVID can serve as a training-free and plug-and-play module for extending long video frames, which enables a 10x increase in video frame input to Qwen2.5-VL, resulting in a relative improvement of 8.6% within the same computational budget. Code is available at https://github.com/Fanziyang-v/FlashVID.
- Abstract(参考訳): ビデオ大言語モデル(VLLM)はビデオ理解において顕著な能力を示しているが、大量の視覚トークンを処理する必要があるため、計算の非効率性が著しく低下する。
既存のVLLMの加速フレームワークは通常、空間的および時間的冗長性を独立に圧縮し、時空間関係を見落とし、時空間の時空間圧縮につながる。
高度に相関した視覚的特徴は、ビデオのダイナミックな性質により、時間とともに空間的位置、スケール、方向、その他の属性を変化させる可能性がある。
この知見に基づいて、VLLMのためのトレーニングフリー推論アクセラレーションフレームワークであるFlashVIDを紹介する。
具体的には、ADTS(Attention and Diversity-based Token Selection)を用いて、基本的なビデオ表現のための最も代表的なトークンを選択し、さらに、微細な時空間冗長性除去に木ベースの時空間トークンマージ(TSTM)を適用する。
5つのビデオ理解ベンチマークで3つの代表VLLMに対して行われた大規模な実験により,本手法の有効性と一般化が示された。
視覚トークンの10%しか保持していないことで、FlashVIDはLLaVA-OneVisionのパフォーマンスの99.1%を保っている。
これにより、FlashVIDは、長いビデオフレームを拡張するためのトレーニングフリーでプラグアンドプレイモジュールとして機能し、Qwen2.5-VLへのビデオフレーム入力が10倍増加し、同じ計算予算内で相対的に8.6%向上する。
コードはhttps://github.com/Fanziyang-v/FlashVIDで入手できる。
関連論文リスト
- FastVID: Dynamic Density Pruning for Fast Video Large Language Models [38.267065642416554]
我々は,FastVIDと呼ばれる高速ビデオLLMの密度決定法を提案する。
FastVIDは、ビデオを時間的に順序付けられたセグメントに分割して、時間構造を保存する。
本手法は時間的・視覚的整合性を維持しながら計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-03-14T08:33:08Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。