論文の概要: VISA: Group-wise Visual Token Selection and Aggregation via Graph Summarization for Efficient MLLMs Inference
- arxiv url: http://arxiv.org/abs/2508.17857v1
- Date: Mon, 25 Aug 2025 10:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.721974
- Title: VISA: Group-wise Visual Token Selection and Aggregation via Graph Summarization for Efficient MLLMs Inference
- Title(参考訳): VISA: 効率的なMLLM推論のためのグラフ要約によるグループワイドビジュアルトークン選択と集約
- Authors: Pengfei Jiang, Hanjun Li, Linglan Zhao, Fei Chao, Ke Yan, Shouhong Ding, Rongrong Ji,
- Abstract要約: Group-wise textbfVIsual token textbfSelection and textbfAggregation (VISA)
本手法は,視覚トークンを圧縮しながら,より視覚的な情報を保存できる。
VISAの有効性を検証するため,LLaVA-1.5,LLaVA-NeXT,Video-LLaVAの総合的な実験を行った。
- 参考スコア(独自算出の注目度): 76.00113788838334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we introduce a novel method called group-wise \textbf{VI}sual token \textbf{S}election and \textbf{A}ggregation (VISA) to address the issue of inefficient inference stemming from excessive visual tokens in multimoal large language models (MLLMs). Compared with previous token pruning approaches, our method can preserve more visual information while compressing visual tokens. We first propose a graph-based visual token aggregation (VTA) module. VTA treats each visual token as a node, forming a graph based on semantic similarity among visual tokens. It then aggregates information from removed tokens into kept tokens based on this graph, producing a more compact visual token representation. Additionally, we introduce a group-wise token selection strategy (GTS) to divide visual tokens into kept and removed ones, guided by text tokens from the final layers of each group. This strategy progressively aggregates visual information, enhancing the stability of the visual information extraction process. We conduct comprehensive experiments on LLaVA-1.5, LLaVA-NeXT, and Video-LLaVA across various benchmarks to validate the efficacy of VISA. Our method consistently outperforms previous methods, achieving a superior trade-off between model performance and inference speed. The code is available at https://github.com/mobiushy/VISA.
- Abstract(参考訳): 本研究では,多言語モデル(MLLM)における過度な視覚的トークンから生じる非効率な推論の問題に対処するため,グループワイドな \textbf{VI}sual token \textbf{S}election と \textbf{A}ggregation (VISA) という新しい手法を提案する。
従来のトークンプルーニング手法と比較して,視覚的トークンを圧縮しながら,より視覚的な情報を保存することができる。
まず,グラフベースのビジュアルトークンアグリゲーション(VTA)モジュールを提案する。
VTAは各視覚トークンをノードとして扱い、視覚トークン間の意味的類似性に基づいたグラフを形成する。
その後、削除されたトークンからの情報をこのグラフに基づいて保持されたトークンに集約し、よりコンパクトなビジュアルトークン表現を生成する。
さらに、グループ単位のトークン選択戦略(GTS)を導入し、各グループの最終層からテキストトークンを誘導して、視覚トークンを保持層と削除層に分割する。
この戦略は、視覚情報を徐々に集約し、視覚情報抽出プロセスの安定性を高める。
VISAの有効性を検証するため,LLaVA-1.5,LLaVA-NeXT,Video-LLaVAの総合的な実験を行った。
提案手法は従来手法よりも優れており,モデル性能と推論速度のトレードオフが優れている。
コードはhttps://github.com/mobiushy/VISAで公開されている。
関連論文リスト
- VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [49.5501769221435]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。
推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。
重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。
実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文 参考訳(メタデータ) (2025-08-07T09:47:21Z) - Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。
WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。
我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-05T02:32:58Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。
本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。