論文の概要: FrameFusion: Combining Similarity and Importance for Video Token Reduction on Large Visual Language Models
- arxiv url: http://arxiv.org/abs/2501.01986v1
- Date: Mon, 30 Dec 2024 17:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-12 03:17:09.982737
- Title: FrameFusion: Combining Similarity and Importance for Video Token Reduction on Large Visual Language Models
- Title(参考訳): FrameFusion:大規模ビジュアル言語モデルにおけるビデオトークン削減のための類似性と重要度の組み合わせ
- Authors: Tianyu Fu, Tengxuan Liu, Qinghao Han, Guohao Dai, Shengen Yan, Huazhong Yang, Xuefei Ning, Yu Wang,
- Abstract要約: 既存のトークン削減手法は主に重要度に基づくトークンプルーニングに焦点を当てている。
本稿では、類似性に基づくマージと重要性に基づくプルーニングを組み合わせた新しいアプローチであるFrameFusionを紹介する。
実験の結果、FrameFusionは視覚トークンを70$%値下げし、3.4-4.4x LLMのスピードアップと1.6-1.9xのエンドツーエンドのスピードアップを達成した。
- 参考スコア(独自算出の注目度): 17.796102228521693
- License:
- Abstract: The increasing demand to process long and high-resolution videos significantly burdens Large Vision-Language Models (LVLMs) due to the enormous number of visual tokens. Existing token reduction methods primarily focus on importance-based token pruning, which overlooks the redundancy caused by frame resemblance and repetitive visual elements. In this paper, we analyze the high vision token similarities in LVLMs. We reveal that token similarity distribution condenses as layers deepen while maintaining ranking consistency. Leveraging the unique properties of similarity over importance, we introduce FrameFusion, a novel approach that combines similarity-based merging with importance-based pruning for better token reduction in LVLMs. FrameFusion identifies and merges similar tokens before pruning, opening up a new perspective for token reduction. We evaluate FrameFusion on diverse LVLMs, including Llava-Video-{7B,32B,72B}, and MiniCPM-V-8B, on video understanding, question-answering, and retrieval benchmarks. Experiments show that FrameFusion reduces vision tokens by 70$\%$, achieving 3.4-4.4x LLM speedups and 1.6-1.9x end-to-end speedups, with an average performance impact of less than 3$\%$. Our code is available at https://github.com/thu-nics/FrameFusion.
- Abstract(参考訳): 長時間かつ高解像度のビデオ処理に対する需要の増加は、膨大な数の視覚トークンのために、LVLM(Large Vision-Language Models)を著しく負担する。
既存のトークン削減手法は主に、フレームの類似性や繰り返し視覚要素による冗長性を見落としている重要度に基づくトークンプルーニングに焦点を当てている。
本稿では,LVLMにおけるハイビジョントークンの類似性を解析する。
トークン類似度分布は、ランキング一貫性を維持しながら層が深くなるにつれて凝縮する。
LVLMのトークン削減のために,類似性に基づくマージと重要性に基づくプルーニングを組み合わせた新しいアプローチであるFrameFusionを導入する。
FrameFusionはプルーニング前に類似のトークンを識別してマージし、トークンの削減のための新たな視点を開く。
Llava-Video-{7B,32B,72B} や MiniCPM-V-8B など様々な LVLM 上で FrameFusion を評価する。
実験の結果、FrameFusion は視覚トークンを 70$\% で減らし、3.4-4.4x LLM のスピードアップと1.6-1.9x のエンドツーエンドのスピードアップを達成した。
私たちのコードはhttps://github.com/thu-nics/FrameFusion.comで利用可能です。
関連論文リスト
- Importance-based Token Merging for Diffusion Models [41.94334394794811]
拡散モデルは高品質の画像とビデオ生成において優れている。
それらを高速化する強力な方法は、より高速な計算のために類似のトークンをマージすることだ。
マージ時に重要なトークンを保存することは,サンプルの品質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-11-23T02:01:49Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Video Token Merging for Long-form Video Understanding [17.59960070514554]
学習可能なビデオトークンのマージアルゴリズムを提案し,その正当性に基づいて動的にトークンをマージする。
提案手法は,メモリコストを84%削減し,スループットをベースラインアルゴリズムに比べて約6.89倍向上させる。
論文 参考訳(メタデータ) (2024-10-31T09:55:32Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。