論文の概要: Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study
- arxiv url: http://arxiv.org/abs/2507.20749v1
- Date: Mon, 28 Jul 2025 11:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.102412
- Title: Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study
- Title(参考訳): マルチモーダル大言語モデル圧縮のための構造解析と復元手法の検討 : 実証的研究
- Authors: Yiran Huang, Lukas Thede, Massimiliano Mancini, Wenjia Xu, Zeynep Akata,
- Abstract要約: MLLM(Multimodal Large Language Models)は印象的な機能を示す。
SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術
本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
- 参考スコア(独自算出の注目度): 64.26593350748401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) demonstrate impressive capabilities, their substantial computational and memory requirements pose significant barriers to practical deployment. Current parameter reduction techniques primarily involve training MLLMs from Small Language Models (SLMs), but these methods offer limited flexibility and remain computationally intensive. To address this gap, we propose to directly compress existing MLLMs through structural pruning combined with efficient recovery training. Specifically, we investigate two structural pruning paradigms--layerwise and widthwise pruning--applied to the language model backbone of MLLMs, alongside supervised finetuning and knowledge distillation. Additionally, we assess the feasibility of conducting recovery training with only a small fraction of the available data. Our results show that widthwise pruning generally maintains better performance in low-resource scenarios with limited computational resources or insufficient finetuning data. As for the recovery training, finetuning only the multimodal projector is sufficient at small compression levels (< 20%). Furthermore, a combination of supervised finetuning and hidden-state distillation yields optimal recovery across various pruning levels. Notably, effective recovery can be achieved with as little as 5% of the original training data, while retaining over 95% of the original performance. Through empirical study on two representative MLLMs, i.e., LLaVA-v1.5-7B and Bunny-v1.0-3B, this study offers actionable insights for practitioners aiming to compress MLLMs effectively without extensive computation resources or sufficient data.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は目覚ましい能力を示すが、その計算とメモリの要求が現実的な展開に重大な障壁をもたらす。
現在のパラメータ削減技術は、主にSmall Language Models (SLM) からMLLMを訓練するが、これらの手法は柔軟性を制限し、計算集約性を維持する。
このギャップに対処するために,構造的刈り込みと効率的な回復訓練を組み合わせることで,既存のMLLMを直接圧縮することを提案する。
具体的には,MLLMの言語モデルバックボーンに,教師付き微粒化と知識蒸留を併用した2つの構造的プルーニングパラダイムについて検討する。
さらに、利用可能なデータのごく一部で回復訓練を行うことの可能性を評価する。
計算資源の制限や微調整が不十分な低リソースシナリオでは,ワイドワイドプルーニングが性能を向上することを示す。
回復訓練では,小型圧縮レベルではマルチモーダルプロジェクタのみの微調整が十分である(<20%)。
さらに, 監督型微粒化法と隠蔽型蒸留法の組み合わせにより, 各種プルーニングレベルの最適回収が可能となった。
特に、有効なリカバリは、元のトレーニングデータの5%以下で達成でき、元のパフォーマンスの95%以上を維持できる。
LLaVA-v1.5-7BとBunny-v1.0-3Bの2つの代表的MLLMに関する実証的研究を通じて,MLLMを広範囲の計算資源や十分なデータなしで効果的に圧縮することを目的とした実践者に対して,実用的な知見を提供する。
関連論文リスト
- Efficient Multitask Learning in Small Language Models Through Upside-Down Reinforcement Learning [8.995427413172148]
小型言語モデル (SLM) はマルチタスクのプロンプト生成タスクにおいて競合性能を達成することができる。
Llama-3, Qwen2, Mistral など最先端モデルの 5% 以内の妥当性スコアを達成できる SLM のトレーニングを行う。
論文 参考訳(メタデータ) (2025-02-14T01:39:45Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs [22.177654792824896]
コスト効率とアクセシビリティのために,小型言語モデル(3Bから7Bパラメータ)に焦点を当てた。
オープンソースで事前トレーニングされた4つのモデルに対して,さまざまなトレーニング構成と戦略について検討する。
i) 学習率の低いバッチサイズと組み合わせることで,MMLUやMTBench,Open LLM Leaderboardといったベンチマーク上でのモデルパフォーマンスが向上します。
論文 参考訳(メタデータ) (2024-12-17T21:16:59Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。