論文の概要: Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2511.02650v1
- Date: Tue, 04 Nov 2025 15:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.089858
- Title: Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models
- Title(参考訳): 視覚入力は圧縮可能か? 大規模マルチモーダルモデルのためのビジュアルトーケン圧縮ベンチマーク
- Authors: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui,
- Abstract要約: We present UniPruneBench, a benchmark for visual token pruning in multimodal model。
UniPruneBenchは、6つの機能ディメンションと10のデータセットにわたる標準化されたプロトコルを提供する。
- 参考スコア(独自算出の注目度): 30.433778463779618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) often suffer from severe inference inefficiency due to the large number of visual tokens introduced by image encoders. While recent token compression methods, such as pruning and merging, have shown promise in reducing redundancy, their evaluation remains fragmented and inconsistent. In this work, we present UniPruneBench, a unified and extensible benchmark for visual token pruning in multimodal LLMs. UniPruneBench provides standardized protocols across six ability dimensions and ten datasets, covering ten representative compression algorithms and three families of LMMs (LLaVA-v1.5, Intern-VL3, and Qwen2.5-VL). Beyond task accuracy, it incorporates system-level metrics such as runtime and prefilling latency to provide a holistic view. Our experiments uncover several key findings: (1) random pruning is a surprisingly strong baseline, (2) no single method consistently outperforms others across scenarios, (3) pruning sensitivity varies significantly across tasks, with OCR being most vulnerable, and (4) pruning ratio is the dominant factor governing performance degradation. We believe UniPruneBench will serve as a reliable foundation for future research on efficient multimodal modeling.
- Abstract(参考訳): 大規模なマルチモーダルモデル(LMM)は、画像エンコーダによって導入された大量の視覚トークンのために、しばしば深刻な推論不効率に悩まされる。
近年のプルーニングやマージのようなトークン圧縮手法は冗長性を減少させる可能性を示唆しているが、その評価は断片化され、矛盾しないままである。
本研究では,マルチモーダルLLMにおける視覚トークンプルーニングのための統一的で拡張可能なベンチマークUniPruneBenchを提案する。
UniPruneBenchは6つの機能ディメンションと10のデータセットで標準化されたプロトコルを提供し、10の代表的な圧縮アルゴリズムと3つのLMM(LLaVA-v1.5、Intern-VL3、Qwen2.5-VL)をカバーする。
タスクの正確性以外にも、ランタイムや待ち時間といったシステムレベルのメトリクスを組み込んで、全体的なビューを提供する。
実験の結果,(1)ランダムプルーニングは驚くほど強いベースラインであり,(2)シナリオ間で連続的に他よりも優れる手法はなく,(3)OCRが最も脆弱で,(4)プルーニング比がパフォーマンス劣化を支配している要因であることがわかった。
われわれはUniPruneBenchが,効率的なマルチモーダルモデリング研究の基盤となると信じている。
関連論文リスト
- LLMC+: Benchmarking Vision-Language Model Compression with a Plug-and-play Toolkit [29.877232989285833]
VLM(Large Vision-Language Models)は、高機能なマルチモーダル機能を持つが、計算とメモリの要求が禁じられている。
現在のアプローチでは、テクニックを同等のモジュールに分解することはなく、空間的および時間的冗長性に対する公正な評価を妨げる。
本稿では,汎用なプラグイン・アンド・プレイツールキットを備えた総合的なVLM圧縮ベンチマークであるLLMC+を紹介する。
論文 参考訳(メタデータ) (2025-08-13T17:54:49Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。