論文の概要: ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2310.02998v2
- Date: Fri, 26 Jan 2024 18:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:46:19.068860
- Title: ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models
- Title(参考訳): ecoflap: 視覚言語モデルのための高効率粗粒度層間プルーニング
- Authors: Yi-Lin Sung, Jaehong Yoon, Mohit Bansal
- Abstract要約: LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
- 参考スコア(独自算出の注目度): 70.45441031021291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) can understand the world comprehensively
by integrating rich information from different modalities, achieving remarkable
advancements on various multimodal downstream tasks. However, deploying LVLMs
is often problematic due to their massive computational/energy costs and carbon
consumption. Such issues make it infeasible to adopt conventional iterative
global pruning, which is costly due to computing the Hessian matrix of the
entire large model for sparsification. Alternatively, several studies have
recently proposed layer-wise pruning approaches to avoid the expensive
computation of global pruning and efficiently compress model weights according
to their importance within a layer. However, they often suffer from suboptimal
model compression due to their lack of a global perspective. To address this
limitation in recent efficient pruning methods for large models, we propose
Efficient Coarse-to-Fine LayerWise Pruning (ECoFLaP), a two-stage
coarse-to-fine weight pruning approach for LVLMs. We first determine the
sparsity ratios of different layers or blocks by leveraging the global
importance score, which is efficiently computed based on the zeroth-order
approximation of the global model gradients. Then, the model performs local
layer-wise unstructured weight pruning based on globally-informed sparsity
ratios. We validate our proposed method across various multimodal and unimodal
models and datasets, demonstrating significant performance improvements over
prevalent pruning techniques in the high-sparsity regime.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界全体を包括的に理解し、様々なマルチモーダル下流タスクにおいて顕著な進歩を達成できる。
しかし、LVLMの展開は、計算/エネルギーのコストと炭素消費のためにしばしば問題となる。
このような問題は、スパシフィケーションモデル全体のヘッセン行列を計算するためにコストがかかる従来の反復的グローバルプルーニングを採用することができない。
あるいは、最近のいくつかの研究では、グローバルプルーニングの高価な計算を回避し、レイヤー内でのモデルの重みを効率よく圧縮するためのレイヤーワイズプルーニング手法が提案されている。
しかし、グローバルな視点が欠如しているため、しばしば準最適モデル圧縮に悩まされる。
本研究では,近年の大規模モデルの効率的な刈り取り手法において,この限界に対処するため,lvlmsの2段階粗削り方式であるecoflapを提案する。
まず,グローバルモデル勾配の0階次近似に基づいて効率よく計算されるグローバル重要度スコアを利用して,異なる層やブロックの疎度比を決定する。
そして,グローバルなインフォームド空間比に基づいて,局所的な非構造的重み付けを行う。
提案手法をマルチモーダルモデルとユニモーダルモデルとデータセットにまたがって検証し,高パリティ環境下でのプルーニング手法に対する性能改善を実証した。
関連論文リスト
- Gradient-Free Adaptive Global Pruning for Pre-trained Language Models [12.935699580605814]
アダプティブ・グローバル・プルーニング(Adaptive Global Pruning, AdaGP)は、グローバル・プルーニングプロセスを管理可能で調整可能なサブプロブレムに再定義する新しいフレームワークである。
AdaGPのアプローチは、LLMをモジュラー関数の連鎖として概念化し、問題の分解に補助変数を利用する。
高いスパーシティ・レシエーションにおいて、特に顕著なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-02-28T00:09:07Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Layer-wise Linear Mode Connectivity [56.53308504862033]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識を融合させる直感的な方法である。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [27.69586583737247]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Local-Global Transformer Enhanced Unfolding Network for Pan-sharpening [13.593522290577512]
パンシャーピングは,低分解能マルチスペクトル (LrMS) 画像の空間分解能を,対応するパンクロマティック (PAN) 画像の誘導により向上することを目的としている。
深層学習(DL)に基づくパンシャーピング法は有望な性能を達成しているが、そのほとんどは2倍の欠損を有する。
論文 参考訳(メタデータ) (2023-04-28T03:34:36Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。