論文の概要: PruneVid: Visual Token Pruning for Efficient Video Large Language Models
- arxiv url: http://arxiv.org/abs/2412.16117v1
- Date: Fri, 20 Dec 2024 18:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:43.562531
- Title: PruneVid: Visual Token Pruning for Efficient Video Large Language Models
- Title(参考訳): PruneVid: 効率的なビデオ大言語モデルのためのビジュアルトーケンプルーニング
- Authors: Xiaohu Huang, Hao Zhou, Kai Han,
- Abstract要約: マルチモーダルビデオ理解の効率化を目的とした視覚的トークンプルーニング手法PruneVidを紹介する。
LLMは、視覚的モダリティを解釈する能力の拡張により、ビデオタスクにおいて有望なパフォーマンスを示してきた。
提案手法を複数のビデオベンチマークで検証し,トークンの80%以上をPruneVidが実行可能であることを示す。
- 参考スコア(独自算出の注目度): 24.889834611542955
- License:
- Abstract: In this paper, we introduce PruneVid, a visual token pruning method designed to enhance the efficiency of multi-modal video understanding. Large Language Models (LLMs) have shown promising performance in video tasks due to their extended capabilities in comprehending visual modalities. However, the substantial redundancy in video data presents significant computational challenges for LLMs. To address this issue, we introduce a training-free method that 1) minimizes video redundancy by merging spatial-temporal tokens, and 2) leverages LLMs' reasoning capabilities to selectively prune visual features relevant to question tokens, enhancing model efficiency. We validate our method across multiple video benchmarks, which demonstrate that PruneVid can prune over 80% of tokens while maintaining competitive performance combined with different model networks. This highlights its superior effectiveness and efficiency compared to existing pruning methods. Code: https://github.com/Visual-AI/PruneVid.
- Abstract(参考訳): 本稿では,マルチモーダル映像理解の効率化を目的とした視覚的トークンプルーニング手法であるPruneVidを紹介する。
大きな言語モデル(LLM)は、視覚的モダリティを解釈する能力の拡張により、ビデオタスクにおいて有望なパフォーマンスを示している。
しかし、ビデオデータのかなりの冗長性は、LLMにとって重要な計算課題である。
この問題に対処するために、トレーニング不要な方法を導入する。
1)時空間トークンのマージによるビデオ冗長性の最小化,及び
2) LLMの推論機能を活用し,質問トークンに関連する視覚的特徴を選択的に具現化し,モデルの効率を向上させる。
提案手法を複数のビデオベンチマークで検証した結果,PruneVidはトークンの80%以上を生成可能であり,異なるモデルネットワークと組み合わせて競合性能を維持することができることがわかった。
これは、既存のプルーニング法と比較して、その優れた効率性と効率性を強調している。
コード:https://github.com/Visual-AI/PruneVid.com
関連論文リスト
- AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding [48.26536049440913]
ビデオ大マルチモーダルモデル(LMM)は、ビデオ理解と推論能力を大幅に改善した。
彼らのパフォーマンスは、トレーニングデータで不足しているOOD(out-of-distriion)タスクに低下する。
OODデータセットの微調整のような従来の手法は、高い計算コストのために実用的ではない。
OODタスクのための新しいビデオインコンテキスト学習フレームワークであるVideoICLを提案する。
論文 参考訳(メタデータ) (2024-12-03T05:54:43Z) - T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。