Fugu-MT 論文翻訳(概要): $\rm SP^3$: Enhancing Structured Pruning via PCA Projection

論文の概要: $\rm SP^3$: Enhancing Structured Pruning via PCA Projection

arxiv url: http://arxiv.org/abs/2308.16475v2
Date: Sat, 20 Apr 2024 09:40:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 00:52:28.766503
Title: $\rm SP^3$: Enhancing Structured Pruning via PCA Projection
Title（参考訳）: $\rm SP^3$:PCAプロジェクションによる構造化プルーニングの強化
Authors: Yuxuan Hu, Jing Zhang, Zhe Zhao, Chen Zhao, Xiaodong Chen, Cuiping Li, Hong Chen,
Abstract要約: 本稿では,PCAプロジェクション(SP3)を用いた新規な構造化プルーニング手法を提案する。実験の結果、SP3はdを70%削減し、BERTベースモデルの94%を圧縮し、96%以上の精度を維持し、同じ圧縮比でdを6%圧縮する他の方法よりも優れていた。
参考スコア（独自算出の注目度）: 24.74632458058136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Structured pruning is a widely used technique for reducing the size of pre-trained language models (PLMs), but current methods often overlook the potential of compressing the hidden dimension (d) in PLMs, a dimension critical to model size and efficiency. This paper introduces a novel structured pruning approach, Structured Pruning with PCA Projection (SP3), targeting the effective reduction of d by projecting features into a space defined by principal components before masking. Extensive experiments on benchmarks (GLUE and SQuAD) show that SP3 can reduce d by 70%, compress 94% of the BERTbase model, maintain over 96% accuracy, and outperform other methods that compress d by 6% in accuracy at the same compression ratio. SP3 has also proven effective with other models, including OPT and Llama. Our data and code are available at an anonymous repo.
Abstract（参考訳）: 構造化プルーニング(Structured pruning)は、事前訓練された言語モデル(PLM)のサイズを減らす手法として広く使われているが、現在の手法は、モデルのサイズと効率に重要な次元であるPLMの隠れ次元(d)を圧縮する可能性を見落としていることが多い。本稿では,PCAプロジェクションを用いた構造化プルーニング手法(SP3)を提案し,マスク前に主成分によって定義された空間に特徴を投影することで,効果的にdを減少させる手法を提案する。ベンチマーク(GLUEとSQuAD)の大規模な実験は、SP3がdを70%削減し、BERTベースモデルの94%を圧縮し、96%以上の精度を維持し、同じ圧縮比でdを6%圧縮する他の方法よりも優れていることを示している。 SP3はOPTやLlamaなど他のモデルでも有効であることが証明されている。私たちのデータとコードは匿名のリポジトリで利用可能です。

関連論文リスト

You Only Prune Once: Designing Calibration-Free Model Compression With Policy Learning [20.62274005080048]
PruneNetは、ポリシー学習プロセスとしてモデルプルーニングを再構成する新しいモデル圧縮手法である。 LLaMA-2-7Bモデルはわずか15分で圧縮でき、ゼロショット性能の80%以上を維持できる。複雑なマルチタスク言語理解タスクでは、PruneNetはオリジナルのモデルの80%のパフォーマンスを維持することで、その堅牢性を実証している。
論文参考訳（メタデータ） (2025-01-25T18:26:39Z)
PIP: Perturbation-based Iterative Pruning for Large Language Models [5.511065308044068]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文参考訳（メタデータ） (2025-01-25T17:10:50Z)
FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文参考訳（メタデータ） (2025-01-24T18:46:37Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection [14.073722038551125]
KVキャッシュは、大規模言語モデルの推論におけるデファクト技術となっている。本稿では,低ランクな投影行列を用いて,キャッシュ特性を次元を小さくした空間に変換する。提案手法は, 平均KVキャッシュ圧縮率60%で90%以上の性能を維持することができる。
論文参考訳（メタデータ） (2024-10-16T08:34:51Z)
Enhancing One-shot Pruned Pre-trained Language Models through Sparse-Dense-Sparse Mechanism [25.36736897890854]
事前学習された言語モデル(PLM)は、文脈理解において堅牢で、様々な自然言語処理タスクにおいて優れた性能を示すように設計されている。現代のプルーニング戦略では、タスク特化データや一般的なデータの再トレーニングを必要とせずに、PLMを圧縮するためのワンショット技術を採用している。重み分布最適化の観点から, 刈り取られたPLMの性能を向上させるためのスパース・デンス・スパース・プルーニング・フレームワークであるSDSを提案する。
論文参考訳（メタデータ） (2024-08-20T01:05:45Z)
MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文参考訳（メタデータ） (2024-08-19T01:30:14Z)
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。 MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T05:57:55Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
A Simple Baseline for Efficient Hand Mesh Reconstruction [9.704302427105187]
3次元手ポーズ推定はジェスチャー認識や人間と機械のインタラクションタスクといった分野に広く応用されている。本稿では,最新技術(SOTA)法を超越した,単純で効果的なベースラインを提案するが,計算効率も示す。
論文参考訳（メタデータ） (2024-03-04T08:00:20Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-06-30T21:57:07Z)
Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-30T06:32:47Z)
Sparse Tensor-based Multiscale Representation for Point Cloud Geometry Compression [18.24902526033056]
Sparse Processing (STP) を用いたVoxelized PCGのマルチスケール表現による統合ポイントクラウド幾何 (PCG) 圧縮手法を開発した。複雑性を適用することで複雑性を著しく減少させるのは、最も確率の高いVoxels(MP-POV)を中心とした畳み込みのみを実行するためである。提案手法は,すべてのスケールでモデル共有を行うため,ポイントワイズによる軽量な複雑性と,小さなストレージ欲求を示す。
論文参考訳（メタデータ） (2021-11-20T17:02:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。