論文の概要: EffiVLM-BENCH: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.00479v1
- Date: Sat, 31 May 2025 09:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.096818
- Title: EffiVLM-BENCH: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models
- Title(参考訳): EffiVLM-BENCH:大規模視覚言語モデルにおける学習自由加速の評価のための総合ベンチマーク
- Authors: Zekun Wang, Minghua Ma, Zexin Wang, Rongchuan Mu, Liping Shan, Ming Liu, Bing Qin,
- Abstract要約: LVLM(Large Vision-Language Models)は大きな成功をおさめたが、その大きな計算要求は実際の展開を妨げている。
EffiVLM-Benchは絶対的な性能だけでなく、一般化や忠誠心も評価するための統一的なフレームワークである。
我々の実験と深部分析は、LVLMの加速のための最適戦略に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 19.344130974979503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved remarkable success, yet their significant computational demands hinder practical deployment. While efforts to improve LVLM efficiency are growing, existing methods lack comprehensive evaluation across diverse backbones, benchmarks, and metrics. In this work, we systematically evaluate mainstream acceleration techniques for LVLMs, categorized into token and parameter compression. We introduce EffiVLM-Bench, a unified framework for assessing not only absolute performance but also generalization and loyalty, while exploring Pareto-optimal trade-offs. Our extensive experiments and in-depth analyses offer insights into optimal strategies for accelerating LVLMs. We open-source code and recipes for EffiVLM-Bench to foster future research.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は大きな成功をおさめたが、その大きな計算要求は実際の展開を妨げている。
LVLM効率を改善する努力は増えているが、既存の手法には様々なバックボーン、ベンチマーク、メトリクスの包括的な評価が欠けている。
本研究では,LVLMの主流加速手法をトークンとパラメータ圧縮に分類して体系的に評価する。
EffiVLM-Benchは、絶対的なパフォーマンスだけでなく、一般化と忠誠を評価できる統一的なフレームワークであり、パレート・最適トレードオフを探索する。
我々の広範な実験と詳細な分析は、LVLMを加速するための最適な戦略に関する洞察を提供する。
我々はEffiVLM-Benchのためのコードとレシピをオープンソース化し、将来の研究を促進する。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - ReForm-Eval: Evaluating Large Vision Language Models via Unified
Re-Formulation of Task-Oriented Benchmarks [76.25209974199274]
大規模視覚言語モデル(LVLM)は、視覚信号を知覚し、視覚的根拠を持つ推論を行う驚くべき能力を示す。
当社のベンチマークおよび評価フレームワークは,LVLMの開発を進めるための基盤としてオープンソース化される予定である。
論文 参考訳(メタデータ) (2023-10-04T04:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。