論文の概要: VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2510.16598v1
- Date: Sat, 18 Oct 2025 17:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.058016
- Title: VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs
- Title(参考訳): VisionSelector: 効率的なマルチモーダルLCMのための学習可能なビジュアルトーケン圧縮
- Authors: Jiaying Zhu, Yurui Zhu, Xin Lu, Wenrui Yan, Dong Li, Kunlin Liu, Xueyang Fu, Zheng-Jun Zha,
- Abstract要約: MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
- 参考スコア(独自算出の注目度): 82.72388893596555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) encounter significant computational and memory bottlenecks from the massive number of visual tokens generated by high-resolution images or multi-image inputs. Previous token compression techniques are often constrained by heuristic rules that risk discarding critical information. They may suffer from biases, such as attention sinks, that lead to sharp performance drops under aggressive compression ratios. To address these limitations, we reformulate token compression as a lightweight plug-and-play framework that reformulates token compression into an end-to-end learnable decision process. To be specific, we propose VisionSelector, a scorer module decoupled from the MLLM backbone that incorporates a differentiable Top-K mechanism and a curriculum annealing strategy to bridge the training-inference gap, enabling efficient and adaptive token selection various arbitrary compression rates. Remarkably lightweight with only 12.85M trainable parameters, VisionSelector demonstrates generalization across various compression rates and adaptively identifying critical tokens. This leads to superior performance across all compression budgets, evidenced by preserving 100% accuracy on MME with 30% retention budget, outperforming prior methods by 12.14% at 10% retention budget, and doubling prefill speed. Our code is available at https://github.com/JulietChoo/VisionSelector .
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、高解像度画像やマルチイメージ入力によって生成される膨大な数の視覚トークンから、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うヒューリスティックなルールによって制約されることが多い。
それらは、アテンションシンクのようなバイアスに悩まされ、アグレッシブな圧縮比の下でパフォーマンスが急落する。
これらの制約に対処するため、トークン圧縮をエンドツーエンドで学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして、トークン圧縮を再構成する。
具体的には,MLLMのバックボーンから分離したスコアリングモジュールであるVisionSelectorを提案し,Top-K機構とカリキュラムのアニール戦略を取り入れて,トレーニングと推論のギャップを埋める手法を提案する。
トレーニング可能なパラメータは12.85Mに過ぎず、VisionSelectorは様々な圧縮速度で一般化し、重要なトークンを適応的に識別する。
これは全ての圧縮予算に優れたパフォーマンスをもたらし、30%の保持予算でMMEに100%の精度を保ち、10%の保持予算で12.14%の先行手法を上回り、プリフィル速度を2倍にすることで証明された。
私たちのコードはhttps://github.com/JulietChoo/VisionSelectorで利用可能です。
関連論文リスト
- ApET: Approximation-Error Guided Token Compression for Efficient VLMs [16.4657793751671]
本稿では,近似エラーガイド付きToken圧縮フレームワークであるApETを紹介する。
ApETは、画像理解タスクのオリジナルパフォーマンスの95.2%を保持し、ビデオ理解タスクの100.4%を達成している。
ApETは無注意設計のため、FlashAttentionとシームレスに統合され、さらなる推論を可能にし、VLMのデプロイをより実用的なものにしている。
論文 参考訳(メタデータ) (2026-02-23T14:15:37Z) - Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models [34.12135666939555]
MLLM(Multimodal Large Language Models)は、複数の視覚トークンを全てのレイヤで処理することで、計算コストを大幅に削減する。
LLMの注意機構のみを用いて、視覚トークンを段階的に削減する、シンプルで広く適用可能な方法である、注意駆動型自己圧縮(ADSC)を導入する。
ADSCはFLOPを53.7%、KVキャッシュメモリを56.7%削減し、オリジナルモデルの98.2%を保存した。
論文 参考訳(メタデータ) (2026-02-13T04:49:27Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding [13.02027465520324]
構造的検索とRLに基づく蒸留を統合したMARCを提案する。
MARCは1フレームのトークンのみを使用してほぼベースラインの精度を達成する。
これにより、リソース制約のある環境での効率的なリアルタイムビデオ理解の可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T08:07:19Z) - LaCo: Efficient Layer-wise Compression of Visual Tokens for Multimodal Large Language Models [62.240460476785934]
視覚エンコーダの中間層内で効果的なトークン圧縮を実現する新しいフレームワークであるLaCo(Layer-wise Visual Token Compression)を提案する。
LaCoは,1)空間-チャネル変換によって隣接するトークンを体系的にマージするレイヤワイドピクセルシャッフル機構,2)非パラメトリックショートカットを用いた残差学習アーキテクチャ,の2つのコアコンポーネントを導入している。
論文 参考訳(メタデータ) (2025-07-03T03:42:54Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models [21.36437021964681]
Global Compression Commander"はHR-LVLM用の新しいトークン圧縮フレームワークである。
GlobalCom$2$は90%以上のパフォーマンスを維持し、90%のビジュアルトークンを圧縮し、FLOPとピークメモリを9.1%と60%に削減している。
論文 参考訳(メタデータ) (2025-01-09T11:57:58Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。