論文の概要: MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with
Module-wise Pruning Error Metric
- arxiv url: http://arxiv.org/abs/2403.07839v1
- Date: Tue, 12 Mar 2024 17:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 20:33:34.767045
- Title: MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with
Module-wise Pruning Error Metric
- Title(参考訳): MoPE-CLIP:モジュールワイドプルーニングエラーメトリックを用いた高能率視覚言語モデルのための構造化プルーニング
- Authors: Haokun Lin, Haoli Bai, Zhili Liu, Lu Hou, Muyi Sun, Linqi Song, Ying
Wei, Zhenan Sun
- Abstract要約: より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。
The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
- 参考スコア(独自算出の注目度): 57.3330687266266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-trained models have achieved impressive performance on
various downstream tasks. However, their large model sizes hinder their
utilization on platforms with limited computational resources. We find that
directly using smaller pre-trained models and applying magnitude-based pruning
on CLIP models leads to inflexibility and inferior performance. Recent efforts
for VLP compression either adopt uni-modal compression metrics resulting in
limited performance or involve costly mask-search processes with learnable
masks. In this paper, we first propose the Module-wise Pruning Error (MoPE)
metric, accurately assessing CLIP module importance by performance decline on
cross-modal tasks. Using the MoPE metric, we introduce a unified pruning
framework applicable to both pre-training and task-specific fine-tuning
compression stages. For pre-training, MoPE-CLIP effectively leverages knowledge
from the teacher model, significantly reducing pre-training costs while
maintaining strong zero-shot capabilities. For fine-tuning, consecutive pruning
from width to depth yields highly competitive task-specific models. Extensive
experiments in two stages demonstrate the effectiveness of the MoPE metric, and
MoPE-CLIP outperforms previous state-of-the-art VLP compression methods.
- Abstract(参考訳): 視覚言語で事前訓練されたモデルは、様々な下流タスクで素晴らしいパフォーマンスを達成した。
しかし、その大きなモデルサイズは計算資源の少ないプラットフォーム上での利用を妨げている。
より小さな事前学習モデルを直接使用し、CLIPモデルにマグニチュードベースのプルーニングを適用すると、柔軟性や性能が低下することがわかった。
VLP圧縮の最近の取り組みは、パフォーマンスが制限されるユニモーダル圧縮メトリクスを採用するか、学習可能なマスクを用いたコストの高いマスク探索プロセスを含む。
本稿では,まず,クロスモーダルタスクにおける性能低下によるクリップモジュールの重要性を正確に評価するモジュールワイズプルーニング誤差(mope)メトリックを提案する。
実測値を用いて,事前学習とタスク固有の微調整の両段階に適用可能な統一型プルーニングフレームワークを提案する。
MoPE-CLIPは教師モデルからの知識を効果的に活用し、強力なゼロショット能力を維持しつつ、トレーニング前のコストを大幅に削減する。
微調整の場合、幅から深さへの連続的なプルーニングは、高い競合性を持つタスク固有のモデルをもたらす。
2段階にわたる大規模な実験は、MoPEメトリックの有効性を示し、MoPE-CLIPは従来の最先端のVLP圧縮手法よりも優れていた。
関連論文リスト
- SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Large Product Key Memory for Pretrained Language Models [12.932177565788974]
製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。
近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
論文 参考訳(メタデータ) (2020-10-08T10:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。