論文の概要: What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning for Multi-modal Large Language Models from the Perspective of Graph
- arxiv url: http://arxiv.org/abs/2501.02268v1
- Date: Sat, 04 Jan 2025 12:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 16:36:51.001083
- Title: What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning for Multi-modal Large Language Models from the Perspective of Graph
- Title(参考訳): ビジュアル・トークンの種類は何か? グラフから見たマルチモーダル大規模言語モデルのための訓練不要なビジュアル・トークン・プルーニング
- Authors: Yutao Jiang, Qiong Wu, Wenhao Lin, Wei Yu, Yiyi Zhou,
- Abstract要約: 本稿では,G-Prune と呼ばれる学習自由な視覚トークンプルーニングのためのグラフベースの手法を提案する。
G-Pruneは視覚トークンをノードとみなし、それらの意味的類似性に基づいて接続を構築する。
実験結果から,G-Pruneは粗いタスクと微粒なタスクの両方で高い性能を維持しながら,計算オーバーヘッドを大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 15.364317811275344
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent Multimodal Large Language Models(MLLMs) often use a large number of visual tokens to compensate their visual shortcoming, leading to excessive computation and obvious visual redundancy. In this paper, we investigate what kind of visual tokens are needed for MLLMs, and reveal that both foreground and background tokens are critical for MLLMs given the varying difficulties of examples. Based on this observation, we propose a graph-based method towards training-free visual token pruning, termed G-Prune.In particular, G-Prune regards visual tokens as nodes, and construct their connections based on their semantic similarities. Afterwards, the information flow is propagated via weighted links, and the most important tokens after iterations are kept for MLLMs, which can be front or background.To validate G-Prune, we apply it to a recent MLLM called LLaVA-NeXT, and conduct extensive experiments on a set of benchmarks.The experiment results show that G-Prune can greatly reduce computation overhead while retaining high performance on both coarse- and fine-grained tasks. For instance, G-Prune can reduce 63.57\% FLOPs of LLaVA-NeXT on VQA2.0 and TextVQA with only 0.95\% and 2.34\% accuracy drops, respectively.
- Abstract(参考訳): 最近のMultimodal Large Language Models(MLLM)は、視覚的欠点を補うために多くの視覚トークンを使用することが多く、過剰な計算と明らかな視覚的冗長性をもたらす。
本稿では,MLLMにおいてどのような視覚的トークンが必要なのかを考察し,背景トークンと前景トークンの両方がMLLMにとって重要であることを示す。
本稿では,G-Prune をノードとみなし,その意味的類似性に基づいて接続を構築する。
その後、情報フローは重み付きリンクを介して伝播し、かつ、繰り返し後の最も重要なトークンは、前も背景にも適用できるMLLMに対して保持される。G-Pruneを検証するため、最近のMLLMにおいてLLaVA-NeXTと呼ばれる大規模なベンチマーク実験を行い、G-Pruneは、粗いタスクときめ細かいタスクの両方において高い性能を維持しながら、計算オーバーヘッドを大幅に低減できることを示す。
例えば、G-Prune は VQA2.0 で LLaVA-NeXT の FLOP を 63.57 % 、TextVQA では 0.95 % と 2.34 % の精度で削減できる。
関連論文リスト
- Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。
WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。
我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-05T02:32:58Z) - ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers [42.85956522420325]
MLLM(Multimodal Large Language Models)はその巨大なサイズと多数の視覚トークンのために高い計算コストを被る。
本稿では,レイヤの変換が視覚およびテキストトークンに与える影響を定量化する新しいメトリクスであるレイヤ貢献(LC)を紹介する。
LCを利用して非効率なレイヤを識別し,これらのレイヤの視覚的トークン更新を凍結する,トレーニング不要なShortVを提案する。
論文 参考訳(メタデータ) (2025-04-01T07:47:55Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。
トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。
本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文 参考訳(メタデータ) (2024-10-08T16:13:24Z) - Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models [10.740051410590553]
トークンプルーニングはMLLMの高速化に有効なソリューションだが、トークンをいつ、どのようにドロップするかは依然として課題である。
本研究では,MLLMの効率的な視覚的トークンプルーニング(FitPrune)のための新しい,トレーニング不要なアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-16T11:43:19Z) - Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。
MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。
提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。
MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。
我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。