論文の概要: MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs
- arxiv url: http://arxiv.org/abs/2508.18264v1
- Date: Mon, 25 Aug 2025 17:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.904523
- Title: MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs
- Title(参考訳): MMTok: VLMの効率的な推論のためのマルチモーダル被覆最大化
- Authors: Sixun Dong, Juhua Hu, Mian Zhang, Ming Yin, Yanjie Fu, Qi Qian,
- Abstract要約: VLM(Vision-Language Models)は,視覚入力を視覚トークンに変換することで,言語指導による視覚内容の理解に優れた性能を示す。
視覚トークンの数を減らすために多くのアルゴリズムが提案されているが、視覚言語タスクの固有のマルチモーダル特性は無視されている。
本稿では,視覚トークンとテキストトークンの両方を活用して,カバレッジの基準によって情報的視覚トークンを選択することを提案する。
- 参考スコア(独自算出の注目度): 38.6018459893585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) demonstrate impressive performance in understanding visual content with language instruction by converting visual input to vision tokens. However, redundancy in vision tokens results in the degenerated inference efficiency of VLMs. While many algorithms have been proposed to reduce the number of vision tokens, most of them apply only unimodal information (i.e., vision/text) for pruning and ignore the inherent multimodal property of vision-language tasks. Moreover, it lacks a generic criterion that can be applied to different modalities. To mitigate this limitation, in this work, we propose to leverage both vision and text tokens to select informative vision tokens by the criterion of coverage. We first formulate the subset selection problem as a maximum coverage problem. Afterward, a subset of vision tokens is optimized to cover the text tokens and the original set of vision tokens, simultaneously. Finally, a VLM agent can be adopted to further improve the quality of text tokens for guiding vision pruning. The proposed method MMTok is extensively evaluated on benchmark datasets with different VLMs. The comparison illustrates that vision and text information are complementary, and combining multimodal information can surpass the unimodal baseline with a clear margin. Moreover, under the maximum coverage criterion on the POPE dataset, our method achieves a 1.87x speedup while maintaining 98.7% of the original performance on LLaVA-NeXT-13B. Furthermore, with only four vision tokens, it still preserves 87.7% of the original performance on LLaVA-1.5-7B. These results highlight the effectiveness of coverage in token selection.
- Abstract(参考訳): VLM(Vision-Language Models)は,視覚入力を視覚トークンに変換することで,言語指導による視覚内容の理解に優れた性能を示す。
しかし、視覚トークンの冗長性は、VLMの退化推論効率をもたらす。
視覚トークンの数を減らすために多くのアルゴリズムが提案されているが、ほとんどのアルゴリズムは、視覚言語タスクの固有のマルチモーダル特性を無視してプルーニングするために、非モーダル情報(すなわち、視覚/テキスト)のみを適用している。
さらに、異なるモダリティに適用できる汎用的な基準が欠けている。
この制限を緩和するため,本稿では,視覚トークンとテキストトークンの両方を活用して,カバレッジの基準によって情報的視覚トークンを選択することを提案する。
まず,部分集合選択問題を最大被覆問題として定式化する。
その後、視覚トークンのサブセットは、テキストトークンと元の視覚トークンのセットを同時にカバーするように最適化される。
最後に、ビジョンプルーニングを導くためのテキストトークンの品質をさらに向上するために、VLMエージェントを採用することができる。
提案手法は,VLMの異なるベンチマークデータセットに対して広範に評価される。
この比較は、視覚情報とテキスト情報が相補的であることを示し、マルチモーダル情報を組み合わせることで、一助基線をクリアマージンで越えることができることを示している。
さらに,POPEデータセットの最大カバレッジ基準の下では,LLaVA-NeXT-13Bのオリジナル性能の98.7%を維持しながら,1.87倍の高速化を実現している。
さらに、4つの視覚トークンしか持たず、LLaVA-1.5-7Bのオリジナルの性能の87.7%を維持している。
これらの結果は,トークン選択におけるカバレッジの有効性を浮き彫りにした。
関連論文リスト
- CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。
提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Vision Remember: Alleviating Visual Forgetting in Efficient MLLM with Vision Feature Resample [30.263537686102016]
冗長な視覚トークンは膨大な量の計算メモリとリソースを消費する。
本研究では,LLMデコーダ層間に挿入され,視覚トークンが視覚機能を再記憶できるようにするビジョンリマインダを提案する。
再サンプリングの過程では、各視覚トークンは視覚特徴の局所的な領域にのみ参加する。
論文 参考訳(メタデータ) (2025-06-04T13:22:35Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。