論文の概要: VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2510.16598v1
- Date: Sat, 18 Oct 2025 17:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.058016
- Title: VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs
- Title(参考訳): VisionSelector: 効率的なマルチモーダルLCMのための学習可能なビジュアルトーケン圧縮
- Authors: Jiaying Zhu, Yurui Zhu, Xin Lu, Wenrui Yan, Dong Li, Kunlin Liu, Xueyang Fu, Zheng-Jun Zha,
- Abstract要約: MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
- 参考スコア(独自算出の注目度): 82.72388893596555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) encounter significant computational and memory bottlenecks from the massive number of visual tokens generated by high-resolution images or multi-image inputs. Previous token compression techniques are often constrained by heuristic rules that risk discarding critical information. They may suffer from biases, such as attention sinks, that lead to sharp performance drops under aggressive compression ratios. To address these limitations, we reformulate token compression as a lightweight plug-and-play framework that reformulates token compression into an end-to-end learnable decision process. To be specific, we propose VisionSelector, a scorer module decoupled from the MLLM backbone that incorporates a differentiable Top-K mechanism and a curriculum annealing strategy to bridge the training-inference gap, enabling efficient and adaptive token selection various arbitrary compression rates. Remarkably lightweight with only 12.85M trainable parameters, VisionSelector demonstrates generalization across various compression rates and adaptively identifying critical tokens. This leads to superior performance across all compression budgets, evidenced by preserving 100% accuracy on MME with 30% retention budget, outperforming prior methods by 12.14% at 10% retention budget, and doubling prefill speed. Our code is available at https://github.com/JulietChoo/VisionSelector .
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、高解像度画像やマルチイメージ入力によって生成される膨大な数の視覚トークンから、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うヒューリスティックなルールによって制約されることが多い。
それらは、アテンションシンクのようなバイアスに悩まされ、アグレッシブな圧縮比の下でパフォーマンスが急落する。
これらの制約に対処するため、トークン圧縮をエンドツーエンドで学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして、トークン圧縮を再構成する。
具体的には,MLLMのバックボーンから分離したスコアリングモジュールであるVisionSelectorを提案し,Top-K機構とカリキュラムのアニール戦略を取り入れて,トレーニングと推論のギャップを埋める手法を提案する。
トレーニング可能なパラメータは12.85Mに過ぎず、VisionSelectorは様々な圧縮速度で一般化し、重要なトークンを適応的に識別する。
これは全ての圧縮予算に優れたパフォーマンスをもたらし、30%の保持予算でMMEに100%の精度を保ち、10%の保持予算で12.14%の先行手法を上回り、プリフィル速度を2倍にすることで証明された。
私たちのコードはhttps://github.com/JulietChoo/VisionSelectorで利用可能です。
関連論文リスト
- Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - LaCo: Efficient Layer-wise Compression of Visual Tokens for Multimodal Large Language Models [62.240460476785934]
視覚エンコーダの中間層内で効果的なトークン圧縮を実現する新しいフレームワークであるLaCo(Layer-wise Visual Token Compression)を提案する。
LaCoは,1)空間-チャネル変換によって隣接するトークンを体系的にマージするレイヤワイドピクセルシャッフル機構,2)非パラメトリックショートカットを用いた残差学習アーキテクチャ,の2つのコアコンポーネントを導入している。
論文 参考訳(メタデータ) (2025-07-03T03:42:54Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models [21.36437021964681]
Global Compression Commander"はHR-LVLM用の新しいトークン圧縮フレームワークである。
GlobalCom$2$は90%以上のパフォーマンスを維持し、90%のビジュアルトークンを圧縮し、FLOPとピークメモリを9.1%と60%に削減している。
論文 参考訳(メタデータ) (2025-01-09T11:57:58Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。