論文の概要: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
- arxiv url: http://arxiv.org/abs/2505.16743v1
- Date: Thu, 22 May 2025 14:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.370584
- Title: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
- Title(参考訳): TRIM: ターゲティングされたRow-wiseイテレーティブなメトリック駆動型プルーニングで極端に疎結合を実現する
- Authors: Florentin Beck, William Rudman, Carsten Eickhoff,
- Abstract要約: LLM(Large Language Models)は、その規模が大きいため、計算と記憶に重大な課題がある。
既存のワンショットプルーニング手法は、層間または各層内で均一なスペーサ性制約を適用することが多い。
この研究は、各層内の個々の出力次元(ロウ)に様々な空間比を適用する新しいアプローチを導入している。
- 参考スコア(独自算出の注目度): 16.47847349673178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
- Abstract(参考訳): 大規模言語モデル(LLM)は、その規模が大きいため、計算とメモリの面で大きな課題を生じさせ、プルーニングを効率的なデプロイメントに欠かせないものにしている。
既存のワンショットプルーニング法では、層間または各層内における均一なスペーサ性制約を適用し、特に高いスペーサ性比において、最適以下の性能をもたらす。
この研究は、各層内の個々の出力次元 (rows) に対して異なる空間比を適用する新しいアプローチであるTRIM(Targeted Row-wise Iterative Metric-driven pruning)を導入する。
TRIMは、品質指標によって導かれる反復的な調整プロセスを採用し、重要な情報を保存するために出力間の品質保持のばらつきを減らすことに重点を置いて、次元の幅割り当てを最適化する。
TRIMは、既存のレイヤワイドプルーニング戦略とシームレスに統合できる。
各種LLMファミリー(Qwen2.5, LLaMA-2, OPT)におけるパープレキシティおよびゼロショットタスクの評価は,TRIMが新たな最先端の成果を達成し,安定性を向上することを示す。
例えば、80%の間隔で、TRIMはQwen2.5-14Bでは48%、OPT-13Bでは90%以上のパープレキシティを減少させる。
極端LLM圧縮の限界を推し進めるためには, 細粒度, 寸法ワイド・スパシティ適応が不可欠である。
https://github.com/flobk/TRIM
関連論文リスト
- Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。
彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。
LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。
GLUEデータセット上の分類タスクについて広範な実験を行った。
GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文 参考訳(メタデータ) (2024-07-11T09:35:08Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。