論文の概要: Olica: Efficient Structured Pruning of Large Language Models without Retraining
- arxiv url: http://arxiv.org/abs/2506.08436v1
- Date: Tue, 10 Jun 2025 04:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.463074
- Title: Olica: Efficient Structured Pruning of Large Language Models without Retraining
- Title(参考訳): Olica: トレーニングを伴わない大規模言語モデルの効率的な構造化プルーニング
- Authors: Jiujun He, Huazhen Lin,
- Abstract要約: 既存のLarge Language Models (LLMs) の構造化プルーニング手法では、破損した相関を再構築するために、再トレーニングに相当な計算資源とデータ資源が必要である。
直交分解(Orthogonal decomposition)と線形分解(Olica)と呼ばれるLCMのプルーニングフレームワークを提案する。
提案されているOllicaは、データ使用量、GPUメモリ、実行時間の点で効率的であり、複数のベンチマークで優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 0.1534667887016089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing structured pruning methods for Large Language Models (LLMs) require substantial computational and data resources for retraining to reestablish the corrupted correlations, making them prohibitively expensive. To address this, we propose a pruning framework for LLMs called Orthogonal decomposition and Linear Calibration (Olica), which eliminates the need for retraining. A key observation is that the multi-head attention (MHA) layer depends on two types of matrix products. By treating these matrix products as unified entities and applying principal component analysis (PCA), we extract the most important information to compress LLMs without sacrificing accuracy or disrupting their original structure. Consequently, retraining becomes unnecessary. A fast decomposition method is devised, reducing the complexity of PCA by a factor of the square of the number of attention heads. Additionally, to mitigate error accumulation problem caused by pruning the feed-forward network (FFN) layer, we introduce a linear calibration method to reconstruct the residual errors of pruned layers using low-rank matrices. By leveraging singular value decomposition (SVD) on the solution of the least-squares problem, these matrices are obtained without requiring retraining. Extensive experiments show that the proposed Olica is efficient in terms of data usage, GPU memory, and running time, while delivering superior performance across multiple benchmarks.
- Abstract(参考訳): LLM(Large Language Models)の既存の構造化プルーニング手法の多くは、破損した相関関係を再確立するために、かなりの計算資源とデータ資源を必要とする。
そこで本研究では,直交分解と線形校正 (Olica) と呼ばれるLCMの刈り取りフレームワークを提案する。
キーとなる観察は、マルチヘッドアテンション(MHA)層が2種類の行列生成物に依存することである。
これらの行列生成物を統一エンティティとして扱い、主成分分析(PCA)を適用することにより、精度を犠牲にしたり、元の構造を破壊したりすることなく、LLMを圧縮するための最も重要な情報を抽出する。
そのため、再訓練は不要となる。
注目ヘッド数2乗の因子によってPCAの複雑さを低減し,高速分解法を考案した。
さらに,フィードフォワード・ネットワーク(FFN)層を切断した際のエラー蓄積問題を軽減するために,低ランク行列を用いて切断した層の残留誤差を再構成する線形キャリブレーション手法を提案する。
最小二乗問題の解に特異値分解(SVD)を利用することにより、これらの行列は再学習を必要とせずに得られる。
大規模な実験により、提案されたOllicaは、データ使用量、GPUメモリ、実行時間の点で効率が良く、複数のベンチマークで優れたパフォーマンスを提供することが示された。
関連論文リスト
- Back to Square Roots: An Optimal Bound on the Matrix Factorization Error for Multi-Epoch Differentially Private SGD [21.92418810749819]
逆相関行列上にバンド構造を付加した新しい明示的因数分解法,Banded Inverse Square Root (BISR) を導入する。
BISRは、上界と下界をマッチングすることで、アナル最適誤差を達成する。
論文 参考訳(メタデータ) (2025-05-17T19:41:44Z) - Lightweight and Post-Training Structured Pruning for On-Device Large Lanaguage Models [11.93284417365518]
我々は,ハイブリッド・グラニュラリティ・プルーニング戦略を用いた軽量なポストトレーニング構造化プルーニング手法Compumを紹介する。
Compは、LLM-Prunerと比較して20%のプルーニング比でLLaMA-2-7Bモデルの性能を6.13%向上させる。
論文 参考訳(メタデータ) (2025-01-25T16:03:58Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - Greedy Output Approximation: Towards Efficient Structured Pruning for LLMs Without Retraining [16.026565606764954]
我々は Transformer-based large language model (LLMs) のプルーニングプロセスを単純化する。
出力近似の最適化から導いた2つの推論対応プルーニング基準を提案する。
また,モデル再トレーニングを伴わずにプルーニングエラーを軽減するための2段階再構成手法も導入した。
論文 参考訳(メタデータ) (2024-07-26T23:53:59Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Large-scale gradient-based training of Mixtures of Factor Analyzers [67.21722742907981]
本稿では,勾配降下による高次元学習を効果的に行うための理論解析と新しい手法の両立に寄与する。
MFAトレーニングと推論/サンプリングは,学習終了後の行列逆変換を必要としない精度行列に基づいて行うことができることを示す。
理論解析と行列の他に,SVHNやMNISTなどの画像データセットにMFAを適用し,サンプル生成と外乱検出を行う能力を示す。
論文 参考訳(メタデータ) (2023-08-26T06:12:33Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Recovery of Linear Components: Reduced Complexity Autoencoder Designs [0.951828574518325]
本論文では,線形・非線形次元低減技術の中間点となる線形成分の回収(Recovery of Linear Components, RLC)という手法を提案する。
合成および実世界のケーススタディの助けを借りて,類似した複雑性を持つオートエンコーダと比較すると,rlcは高い精度を示し,頑健性と過剰適合性,より高速なトレーニング時間を示すことを示した。
論文 参考訳(メタデータ) (2020-12-14T14:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。