論文の概要: SparseForge: Efficient Semi-Structured LLM Sparsification via Annealing of Hessian-Guided Soft-Mask
- arxiv url: http://arxiv.org/abs/2605.06402v1
- Date: Thu, 07 May 2026 15:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.933646
- Title: SparseForge: Efficient Semi-Structured LLM Sparsification via Annealing of Hessian-Guided Soft-Mask
- Title(参考訳): SparseForge: Hessian-Guided Soft-Maskのアニーリングによる高効率半構造化LDMスパリゼーション
- Authors: Liu Hanzuo, Chaofan Lin, Weixuan Sun, Yulong Wang, Key, Rayying, Mingyu Gao,
- Abstract要約: 既存の手法では、精度を回復するために大規模なスパースリトレーニングを頼りにしており、計算コストが高い。
本稿では,スパシティマスクを直接最適化することにより,回復効率を向上させるポストトレーニングフレームワークであるSparseForgeを提案する。
2:4の間隔でLLaMA-2-7Bでは、SparseForgeは平均で57.27%のゼロショット精度を達成し、textbf5B$リトレーニングトークンのみである。
- 参考スコア(独自算出の注目度): 9.869956946475233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-structured sparsity provides a practical path to accelerate large language models (LLMs) with native hardware support, but post-training semi-structured pruning often suffers from substantial quality degradation due to strong structural coupling. Existing methods rely on large-scale sparse retraining to recover accuracy, resulting in high computational cost. We propose SparseForge, a post-training framework that improves recovery efficiency by directly optimizing the sparsity mask rather than scaling up retraining tokens. SparseForge combines Hessian-aware importance estimation with progressive annealing of soft masks into hardware-executable structured sparsity, enabling stable and efficient sparse recovery. On LLaMA-2-7B under 2:4 sparsity, SparseForge achieves 57.27% average zero-shot accuracy with only $\textbf{5B}$ retraining tokens, surpassing the dense model's 56.43% accuracy and approaching the 57.52% result of a state-of-the-art method using $\textbf{40B}$ tokens. Such improvements on the accuracy-efficiency trade-off from SparseForge are shown to be consistent across model families.
- Abstract(参考訳): 半構造化スパーシリティは,大規模言語モデル(LLM)をネイティブハードウェアサポートで高速化する実践的パスを提供するが,ポストトレーニング後の半構造化プルーニングは,強い構造的結合による大幅な品質劣化に悩まされることが多い。
既存の手法では、精度を回復するために大規模なスパースリトレーニングを頼りにしており、計算コストが高い。
SparseForgeは、再トレーニングトークンをスケールアップするのではなく、スペーサマスクを直接最適化することで、回復効率を向上するポストトレーニングフレームワークである。
SparseForgeは、ヘッセン認識の重要度推定とソフトマスクのプログレッシブアニールをハードウェア実行可能な構造化空間に組み合わせ、安定かつ効率的なスパース回復を可能にする。
2:4の間隔でLLaMA-2-7Bでは、SparseForgeは57.27%の平均ゼロショット精度を、$\textbf{5B}$再トレーニングトークンで達成し、密度の高いモデルの56.43%の精度を上回り、$\textbf{40B}$トークンを使った最先端の手法の57.52%の結果に近づいた。
SparseForgeからの精度と効率のトレードオフに関するこのような改善は、モデルファミリ間で一貫性があることが示されている。
関連論文リスト
- Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - EvoESAP: Non-Uniform Expert Pruning for Sparse MoE [42.738877185877634]
textbfExpected textbfAcceptance textbfProxy (textbfESAP) は,プルーンドモデルがフルモデルとどの程度よく一致しているかを測定する投機的復号化型教師力メトリクスである。
固定されたグローバル予算の下で一様でない層単位の空間配置を最適化する進化的探索フレームワークであるEvoESAPを提案する。
論文 参考訳(メタデータ) (2026-03-06T08:02:58Z) - EcoSpa: Efficient Transformer Training with Coupled Sparsity [79.5008521101473]
トランスフォーマーは現代のAIのバックボーンとなっているが、その高い計算要求は重要なシステム課題を引き起こしている。
EcoSpaは、結合した重み行列対を共同で評価し、スパース化する効率的な構造的スパース訓練法である。
論文 参考訳(メタデータ) (2025-11-09T11:23:43Z) - Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers [91.02299679350834]
Diffusion Transformer (DiTs) は最先端の生成性能を提供するが、シークエンス長の2次トレーニングコストは大規模な事前訓練を不当に高価にする。
本稿では,高効率拡散変換器のためのスパース-デンス残差核融合法を提案する。
論文 参考訳(メタデータ) (2025-10-24T19:29:55Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Sparsity Forcing: Reinforcing Token Sparsity of MLLMs [40.93786579652003]
マルチモーダル大規模言語モデル(MLLM)におけるトークンの分散性を,単純なRLベースのポストトレーニングフレームワークであるtextitSparsity Forcing を用いて明示的に強化する。
本手法では,複数ロールアウトを異なるトークン予算で実行し,効率(トーケン還元率)と性能(回答正当性)の両方を共同報酬として定式化することにより,効率・正確性トレードオフを探索する。
論文 参考訳(メタデータ) (2025-04-23T01:45:55Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks [2.6742343015805083]
本稿では,ニューラルネットワーク内に存在する空間の均一分布を探索するグラディエント・アナリング(GA)を提案する。
GAは、余剰を誘導する正規化を必要とせずに、余剰と正確性の間のエレガントなトレードオフを提供する。
GAと最新の学習可能なプルーニング手法を統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成する。
論文 参考訳(メタデータ) (2023-04-14T06:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。