論文の概要: Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods
- arxiv url: http://arxiv.org/abs/2510.07143v1
- Date: Wed, 08 Oct 2025 15:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.601057
- Title: Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods
- Title(参考訳): 正しいベンチマークを使うか:ビジュアルトーケン圧縮手法の評価フレームワーク
- Authors: Chenfei Liao, Wensong Wang, Zichen Wen, Xu Zheng, Yiyu Wang, Haocong He, Yuanhuiyi Lyu, Lutao Jiang, Xin Zou, Yuqian Fu, Bin Ren, Linfeng Zhang, Xuming Hu,
- Abstract要約: 単純な画像ダウンサンプリングは、複数の広く使用されているベンチマークにおいて、多くの高度な圧縮方法より一貫して優れていることを示す。
これらの結果に触発され,既存のベンチマークを識別するデータフィルタリング機構を組み込んだ評価フレームワークであるVTC-Benchを導入する。
- 参考スコア(独自算出の注目度): 54.4711434793961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent endeavors to accelerate inference in Multimodal Large Language Models (MLLMs) have primarily focused on visual token compression. The effectiveness of these methods is typically assessed by measuring the accuracy drop on established benchmarks, comparing model performance before and after compression. However, these benchmarks are originally designed to assess the perception and reasoning capabilities of MLLMs, rather than to evaluate compression techniques. As a result, directly applying them to visual token compression introduces a task mismatch. Strikingly, our investigation reveals that simple image downsampling consistently outperforms many advanced compression methods across multiple widely used benchmarks. Through extensive experiments, we make the following observations: (i) Current benchmarks are noisy for the visual token compression task. (ii) Down-sampling is able to serve as a data filter to evaluate the difficulty of samples in the visual token compression task. Motivated by these findings, we introduce VTC-Bench, an evaluation framework that incorporates a data filtering mechanism to denoise existing benchmarks, thereby enabling fairer and more accurate assessment of visual token compression methods. All data and code are available at https://github.com/Chenfei-Liao/VTC-Bench.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)における推論を高速化するための最近の取り組みは、主に視覚的トークン圧縮に焦点を当てている。
これらの手法の有効性は、確立されたベンチマークの精度低下を測定し、圧縮前後のモデル性能を比較して評価するのが一般的である。
しかし、これらのベンチマークは元々、圧縮技術を評価するのではなく、MLLMの知覚と推論能力を評価するために設計されている。
結果として、それらをビジュアルトークン圧縮に直接適用すると、タスクミスマッチが発生する。
興味深いことに、我々の調査では、単純なイメージダウンサンプリングが、複数の広く使用されているベンチマークにおいて、多くの高度な圧縮方法より一貫して優れていることが判明した。
広範な実験を通して、以下の観察を行う。
(i)現在のベンチマークは、ビジュアルトークン圧縮タスクにうるさい。
(II)ダウンサンプリングは、ビジュアルトークン圧縮タスクにおけるサンプルの難易度を評価するためのデータフィルタとして機能する。
VTC-Benchは,既存のベンチマークを識別するためのデータフィルタリング機構を組み込んだ評価フレームワークで,より公平かつ正確なビジュアルトークン圧縮手法の評価を可能にする。
すべてのデータとコードはhttps://github.com/Chenfei-Liao/VTC-Bench.comで入手できる。
関連論文リスト
- Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images [60.42768987736088]
蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。
我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。
我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:11:40Z) - Perception Compressor: A Training-Free Prompt Compression Framework in Long Context Scenarios [17.720102137585503]
Perceptionは、大規模な言語モデルのためのトレーニングフリーのプロンプト圧縮フレームワークである。
これには、指導的質問と指示を利用して、最も関連するデモンストレーションを検索する知覚検索機能が含まれる。
長いコンテキスト、ベンチマーク、iSie、LongBench、MuSiQueに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-09-28T07:13:33Z) - Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。