論文の概要: Sparsity Induction for Accurate Post-Training Pruning of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.21652v1
- Date: Wed, 25 Feb 2026 07:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.744377
- Title: Sparsity Induction for Accurate Post-Training Pruning of Large Language Models
- Title(参考訳): 大規模言語モデルの正確な訓練後プルーニングのためのスポーサリティ誘導
- Authors: Minhao Jiang, Zhikai Li, Xuewen Liu, Jing Zhang, Mengjuan Chen, Qingyi Gu,
- Abstract要約: PTS(Post-training Sparsity)は、高密度ネットワークから重みを取り除き、モデルコストを削減する。
しかし、原生の密度の強い行列は疎度を欠いているため、重量を直接除去する既存のアプローチはモデル状態を破壊している。
刈り込み前の分布レベルと特徴レベルの両方において,より高い疎度に向けてモデルを促進するスペーサ性誘導法を提案する。
- 参考スコア(独自算出の注目度): 23.002927923453118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated capabilities in text generation, while their increasing parameter scales present challenges in computational and memory efficiency. Post-training sparsity (PTS), which reduces model cost by removing weights from dense networks, is an effective approach. However, native dense matrices lack high sparsity, making existing approaches that directly remove weights disrupt model states, resulting in unsatisfactory performance recovery even with post-tuning. We propose Sparsity Induction, which promotes models toward higher sparsity at both distribution and feature levels before pruning, to push the limits of PTS. At the distribution level, we enhance distributional sparsity through mathematically equivalent scaling transformations, which are fully absorbable and incur no extra parameters or inference-time overhead. At the feature level, we introduce Spectral Norm Loss to promote feature sparsity from a low-rank perspective. Experiments across diverse model architectures and tasks demonstrate that our method further enhances sparsity-friendliness, achieving superior pruning performance over existing approaches.
- Abstract(参考訳): 大規模言語モデルはテキスト生成の能力を示し、パラメータの増大は計算とメモリ効率の課題を示す。
重み付きネットワークから重みを取り除いてモデルコストを削減するPTS(Post-training Sparsity)は効果的なアプローチである。
しかし、原生密度行列は疎度が低いため、重量を直接除去する既存のアプローチではモデル状態が破壊され、ポストチューニングでも不満足な性能回復が生じる。
本研究では, PTS の限界を押し上げるために, プルーニング前における分布と特徴レベルの両方において, モデルがより高いスパーシティ化を促進するスペーシ性誘導法を提案する。
分布レベルでは、完全に吸収可能であり、余分なパラメータや推論時間オーバーヘッドは生じない数学的に等価なスケーリング変換によって分布の空間性を高める。
機能レベルでは、スペクトルノルムロスを導入し、低ランクの観点から特徴の空間性を促進する。
多様なモデルアーキテクチャとタスクをまたいだ実験により,提案手法はより疎結合性を高め,既存手法よりも優れたプルーニング性能を実現することを示す。
関連論文リスト
- Gradually Compacting Large Language Models for Reasoning Like a Boiling Frog [72.4168434368873]
大きな言語モデル(LLM)は印象的な推論能力を示しているが、その相当なサイズは、しばしばかなりの計算資源を必要とする。
圧縮過程を細かな繰り返しに分割する段階的圧縮法を提案する。
この「沸騰するカエル」効果の反復的なアプローチは、急激な性能損失を伴わずに、モデルを段階的に圧縮することができる。
論文 参考訳(メタデータ) (2026-02-04T06:56:52Z) - High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - Understanding Flatness in Generative Models: Its Role and Benefits [9.775257597631244]
教師付き学習における堅牢性を高めることが知られているフラット・ミニマは、生成モデルにおいてほとんど探索されていない。
より平坦なミニマは、対象の事前分布における摂動に対する頑健性を改善するという理論的主張を確立する。
拡散モデルにおける平坦なミニマは、生成性能だけでなく、頑健性も向上することを示した。
論文 参考訳(メタデータ) (2025-03-14T04:38:53Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。