論文の概要: ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2310.02998v2
- Date: Fri, 26 Jan 2024 18:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:46:19.068860
- Title: ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models
- Title(参考訳): ecoflap: 視覚言語モデルのための高効率粗粒度層間プルーニング
- Authors: Yi-Lin Sung, Jaehong Yoon, Mohit Bansal
- Abstract要約: LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
- 参考スコア(独自算出の注目度): 70.45441031021291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) can understand the world comprehensively
by integrating rich information from different modalities, achieving remarkable
advancements on various multimodal downstream tasks. However, deploying LVLMs
is often problematic due to their massive computational/energy costs and carbon
consumption. Such issues make it infeasible to adopt conventional iterative
global pruning, which is costly due to computing the Hessian matrix of the
entire large model for sparsification. Alternatively, several studies have
recently proposed layer-wise pruning approaches to avoid the expensive
computation of global pruning and efficiently compress model weights according
to their importance within a layer. However, they often suffer from suboptimal
model compression due to their lack of a global perspective. To address this
limitation in recent efficient pruning methods for large models, we propose
Efficient Coarse-to-Fine LayerWise Pruning (ECoFLaP), a two-stage
coarse-to-fine weight pruning approach for LVLMs. We first determine the
sparsity ratios of different layers or blocks by leveraging the global
importance score, which is efficiently computed based on the zeroth-order
approximation of the global model gradients. Then, the model performs local
layer-wise unstructured weight pruning based on globally-informed sparsity
ratios. We validate our proposed method across various multimodal and unimodal
models and datasets, demonstrating significant performance improvements over
prevalent pruning techniques in the high-sparsity regime.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界全体を包括的に理解し、様々なマルチモーダル下流タスクにおいて顕著な進歩を達成できる。
しかし、LVLMの展開は、計算/エネルギーのコストと炭素消費のためにしばしば問題となる。
このような問題は、スパシフィケーションモデル全体のヘッセン行列を計算するためにコストがかかる従来の反復的グローバルプルーニングを採用することができない。
あるいは、最近のいくつかの研究では、グローバルプルーニングの高価な計算を回避し、レイヤー内でのモデルの重みを効率よく圧縮するためのレイヤーワイズプルーニング手法が提案されている。
しかし、グローバルな視点が欠如しているため、しばしば準最適モデル圧縮に悩まされる。
本研究では,近年の大規模モデルの効率的な刈り取り手法において,この限界に対処するため,lvlmsの2段階粗削り方式であるecoflapを提案する。
まず,グローバルモデル勾配の0階次近似に基づいて効率よく計算されるグローバル重要度スコアを利用して,異なる層やブロックの疎度比を決定する。
そして,グローバルなインフォームド空間比に基づいて,局所的な非構造的重み付けを行う。
提案手法をマルチモーダルモデルとユニモーダルモデルとデータセットにまたがって検証し,高パリティ環境下でのプルーニング手法に対する性能改善を実証した。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - DLO: Dynamic Layer Operation for Efficient Vertical Scaling of LLMs [46.443316184807145]
変換器をベースとした大規模言語モデル(LLM)を垂直スケールする新しいアプローチである動的層演算(DLO)を導入する。
モデル幅の拡張に重点を置く従来のMixture-of-Experts(MoE)手法とは異なり,本手法はモデル深度を対象とし,様々な入力サンプルに対して層表現間で観測される冗長性に対処する。
実験結果から、DLOは元の非スケールモデルよりも優れるだけでなく、効率が大幅に向上した密に拡張されたモデルに匹敵する結果が得られることが示された。
論文 参考訳(メタデータ) (2024-07-03T18:34:08Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - Local-Global Transformer Enhanced Unfolding Network for Pan-sharpening [13.593522290577512]
パンシャーピングは,低分解能マルチスペクトル (LrMS) 画像の空間分解能を,対応するパンクロマティック (PAN) 画像の誘導により向上することを目的としている。
深層学習(DL)に基づくパンシャーピング法は有望な性能を達成しているが、そのほとんどは2倍の欠損を有する。
論文 参考訳(メタデータ) (2023-04-28T03:34:36Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。