論文の概要: EvoComp: Learning Visual Token Compression for Multimodal Large Language Models via Semantic-Guided Evolutionary Labeling
- arxiv url: http://arxiv.org/abs/2604.17087v1
- Date: Sat, 18 Apr 2026 17:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.326033
- Title: EvoComp: Learning Visual Token Compression for Multimodal Large Language Models via Semantic-Guided Evolutionary Labeling
- Title(参考訳): EvoComp:Semantic-Guided Evolutionary Labelingによる多モード大言語モデルの視覚的トーケン圧縮学習
- Authors: Jiafei Song, Fengwei Zhou, Jin Qu, Wenjin Jason Li, Tong Wu, Gengjian Xue, Zhikang Zhao, Daomin Wei, Yichao Lu, Bailin Na,
- Abstract要約: EvoCompは、タスクの精度を維持しながらトークン数を著しく削減するビジュアルトークン圧縮フレームワークである。
3倍のトークン圧縮で元の精度の99.3%を保持し、モバイルデバイスで最大1.6倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 7.872065731262025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Multimodal Large Language Models (MLLMs) have demonstrated strong performance on vision-language understanding tasks, yet their inference efficiency is often hampered by the large number of visual tokens, particularly in high-resolution or multi-image scenarios. To address this issue, we propose EvoComp, a visual token compression framework that significantly reduces token count while preserving task accuracy. EvoComp introduces a lightweight encoder-only transformer-based compressor that selects the most informative and non-redundant visual tokens by jointly considering visual and textual contexts. A core challenge lies in providing effective supervision for training the compressor. To this end, we design an evolutionary labeling strategy that searches for token subsets minimizing the MLLM's output loss, while enforcing semantic diversity through vocabulary-based token grouping. We further train the compressor using a tailored loss function combining the GHM loss to mitigate class and difficulty imbalance, and a cosine similarity regularization to encourage semantic separation between retained and discarded tokens. Extensive experiments across multiple vision-language benchmarks show that EvoComp outperforms existing methods based on attention or similarity heuristics. Notably, it retains 99.3% of the original accuracy under 3x token compression and delivers up to 1.6x speedup on mobile devices.
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)は、視覚言語理解タスクにおいて強力な性能を示してきたが、その推論効率は、特に高解像度またはマルチイメージのシナリオにおいて、多くの視覚トークンによって妨げられていることが多い。
この問題に対処するために,タスクの精度を保ちながらトークン数を大幅に削減するビジュアルトークン圧縮フレームワークであるEvoCompを提案する。
EvoCompは軽量なエンコーダのみのトランスフォーマーベースの圧縮機を導入し、視覚とテキストのコンテキストを共同で検討することで、最も情報に富んだ非冗長な視覚トークンを選択する。
主な課題は、圧縮機の訓練に効果的な監督を提供することである。
そこで我々は,MLLMの出力損失を最小限に抑えつつ,語彙に基づくトークングループ化による意味的多様性を図りつつ,トークンサブセットを探索する進化的ラベリング戦略を設計する。
さらに、GHM損失を軽減し、不均衡を緩和するために調整された損失関数を用いて圧縮機を訓練し、保持トークンと廃棄トークンのセマンティックな分離を促進するためにコサイン類似性を正規化する。
複数の視覚言語ベンチマークによる大規模な実験により、EvoCompは注意力や類似性ヒューリスティックスに基づいて既存の手法より優れていることが示された。
特に、3倍のトークン圧縮で元の精度の99.3%を保持し、モバイルデバイスで最大1.6倍のスピードアップを提供する。
関連論文リスト
- QMoP: Query Guided Mixture-of-Projector for Efficient Visual Token Compression [35.802647459700125]
視覚トークンを3つの協調ブランチを介して適応的に圧縮する新しいフレームワークを提案する。
QMoPはメモリ、計算、推論時間を大幅に節約する。
論文 参考訳(メタデータ) (2026-03-22T13:42:24Z) - Adaptive-VoCo: Complexity-Aware Visual Token Compression for Vision-Language Models [19.536595270049016]
本稿では,VoCo-LLaMAを適応圧縮のための軽量な予測器で拡張するフレームワークであるAdaptive-VoCoを提案する。
実験結果から,本手法は複数のマルチモーダルタスクの固定レートベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-12-20T20:24:07Z) - AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs [29.68162972167947]
適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案する。
当社のアプローチでは,バニラモデルのパフォーマンスの96%を達成しながら,トークンの10%しか使用していません。
論文 参考訳(メタデータ) (2025-11-18T06:12:15Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Efficient Large Multi-modal Models via Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模言語モデルにおける効率的な訓練について述べる。
最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。
GQAベンチマークにビジュアルコンテキストを導入し、視覚トークンの数を減らし、性能を犠牲にすることなくトレーニングと推論効率を向上させる。
論文 参考訳(メタデータ) (2024-06-28T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。