論文の概要: LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression
- arxiv url: http://arxiv.org/abs/2503.04982v1
- Date: Thu, 06 Mar 2025 21:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:20.913474
- Title: LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression
- Title(参考訳): LVLM-Compress-Bench:大規模視覚言語モデル圧縮のより広い影響のベンチマーク
- Authors: Souvik Kundu, Anahita Bhiwandiwalla, Sungduk Yu, Phillip Howard, Tiep Le, Sharath Nittur Sridhar, David Cobbley, Hao Kang, Vasudev Lal,
- Abstract要約: LVLM-Compress-Benchはマルチモーダル入力駆動タスクによるLVLMの生成性能に対する圧縮の影響を広く研究するフレームワークである。
一般的なLLaVAフレームワークの4つのLVLM変種を用いて、さまざまな最先端KVと重み圧縮手法を統合することにより、分析結果を提示する。
本フレームワークは,実世界と合成データセットの組み合わせを利用して,一般的な指標と重要な指標の両方に対する圧縮効果を実証する。
- 参考スコア(独自算出の注目度): 7.67622140575795
- License:
- Abstract: Despite recent efforts in understanding the compression impact on large language models (LLMs) in terms of their downstream task performance and trustworthiness on relatively simpler uni-modal benchmarks (for example, question answering, common sense reasoning), their detailed study on multi-modal Large Vision-Language Models (LVLMs) is yet to be unveiled. Towards mitigating this gap, we present LVLM-Compress-Bench, a framework to first thoroughly study the broad impact of compression on the generative performance of LVLMs with multi-modal input driven tasks. In specific, we consider two major classes of compression for autoregressive models, namely KV cache and weight compression, for the dynamically growing intermediate cache and static weights, respectively. We use four LVLM variants of the popular LLaVA framework to present our analysis via integrating various state-of-the-art KV and weight compression methods including uniform, outlier-reduced, and group quantization for the KV cache and weights. With this framework we demonstrate on ten different multi-modal datasets with different capabilities including recognition, knowledge, language generation, spatial awareness, visual reasoning, hallucination and visual illusion identification, toxicity, stereotypes and bias. In specific, our framework demonstrates the compression impact on both general and ethically critical metrics leveraging a combination of real world and synthetic datasets to encompass diverse societal intersectional attributes. Extensive experimental evaluations yield diverse and intriguing observations on the behavior of LVLMs at different quantization budget of KV and weights, in both maintaining and losing performance as compared to the baseline model with FP16 data format. Code will be open-sourced at https://github.com/opengear-project/LVLM-compress-bench.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)に対する圧縮効果の理解と、比較的単純な単モーダルベンチマーク(例えば、質問応答、常識推論)の信頼性の両面からの研究にもかかわらず、LVLM(Large Vision-Language Models)に関する詳細な研究はまだ明らかになっていない。
LVLM-Compress-Benchは,マルチモーダル入力駆動タスクによるLVLMの生成性能に対する圧縮の影響を網羅的に研究するフレームワークである。
具体的には,KVキャッシュと重み圧縮という,自己回帰モデルに対する2つの主要な圧縮クラスについて検討する。
我々は、一般的なLLaVAフレームワークの4つのLVLM変種を用いて、KVキャッシュと重みの群量子化を含む様々な最先端KVと重み圧縮手法を統合することで、我々の分析を提示する。
このフレームワークでは、認識、知識、言語生成、空間認識、視覚的推論、幻覚と視覚錯覚の識別、毒性、ステレオタイプ、バイアスを含む、異なる機能を持つ10の異なるマルチモーダルデータセットを実証する。
具体的には、実世界と合成データセットの組み合わせを利用して、多様な社会的交叉属性を包含する一般的および倫理的に重要な指標の圧縮効果を実証する。
FP16データフォーマットのベースラインモデルと比較して,KVと重みの異なる量子化予算におけるLVLMの挙動の多様かつ興味深い観察結果が得られた。
コードはhttps://github.com/opengear-project/LVLM-compress-bench.orgでオープンソース化される。
関連論文リスト
- Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping [45.584695790489484]
LVLM(Large Vision-Language Models)は、マルチモーダルタスクにまたがる顕著な機能を示す。
VLB(Vision-Language Bootstrapping)と呼ばれる動的マルチモーダル評価プロトコルを導入する。
VLBは、データ汚染の低減と柔軟性のある複雑さを伴うLVLMの堅牢で包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-10-11T10:33:51Z) - Efficient Large Multi-modal Models via Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模言語モデルにおける効率的な訓練について述べる。
最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。
GQAベンチマークにビジュアルコンテキストを導入し、視覚トークンの数を減らし、性能を犠牲にすることなくトレーニングと推論効率を向上させる。
論文 参考訳(メタデータ) (2024-06-28T17:57:14Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。