論文の概要: ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization
- arxiv url: http://arxiv.org/abs/2510.05528v1
- Date: Tue, 07 Oct 2025 02:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.071593
- Title: ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization
- Title(参考訳): ARMOR:適応行列分解による高性能半構造化プルーニング
- Authors: Lawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang,
- Abstract要約: ARMOR: (Adaptive Representation with Matrix-factorization) は、新しい1ショットのポストトレーニングプルーニングアルゴリズムである。
ARMORは重量を直接刈る代わりに、各重量行列を2:4のスパースコアに分解する。
ARMORは、幅広いダウンストリームタスクとパープレキシティ評価において、最先端の2:4プルーニング手法よりも一貫して、はるかに優れています。
- 参考スコア(独自算出の注目度): 99.96330641363396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) present significant deployment challenges due to their immense computational and memory requirements. While semi-structured pruning, particularly 2:4 sparsity, offers a path to practical hardware acceleration, existing methods often incur substantial performance degradation. To bridge this gap, we introduce ARMOR: (Adaptive Representation with Matrix-factORization), a novel one-shot post-training pruning algorithm. Instead of directly pruning weights, ARMOR factorizes each weight matrix into a 2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These wrappers act as efficient pre and post-transformation error correctors, offering greater flexibility to preserve model quality compared to conventional 2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen through a block coordinate descent algorithm that minimizes a layer-wise proxy loss. We theoretically prove this optimization is guaranteed to converge to a solution with a proxy loss less than or equal to state-of-the-art pruning algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and significantly outperforms state-of-the-art 2:4 pruning methods across a wide range of downstream tasks and perplexity evaluations. ARMOR achieves this superior performance while retaining the inference speedups and substantial memory usage reductions of 2:4 pruning, establishing a more effective trade-off between model compression and task accuracy
- Abstract(参考訳): 大規模言語モデル(LLM)は、その膨大な計算およびメモリ要求のために、重大なデプロイメント上の課題を提示する。
半構造化プルーニング(特に2:4の間隔)は、実用的なハードウェアアクセラレーションへの道を提供するが、既存の手法はしばしば性能劣化を引き起こす。
このギャップを埋めるために、我々はARMOR: (Adaptive Representation with Matrix-factorization) を導入する。
ARMORは重量を直接刈る代わりに、各重量行列を2:4のスパースコアに分解する。
これらのラッパーは、従来の2:4プルーニング技術に比べて、モデル品質を維持するための柔軟性が向上する。
スパースコアとブロック対角ラッパーは、層単位でのプロキシ損失を最小限に抑えるブロック座標降下アルゴリズムによって選択される。
理論的には、この最適化は、最先端のプルーニングアルゴリズムと同等以上のプロキシ損失の解に収束することが保証されている。
Llama (Touvron et al , 2023; Dubey et al , 2024) と Qwen (Yang et al , 2025) モデルファミリーに対する実験により、ARMOR は、幅広い下流タスクと複雑度評価において、最先端の2:4 プルーニング手法を一貫して、著しく上回っていることが示された。
ARMORは2:4プルーニングの推論スピードアップとメモリ使用量の大幅な削減を維持しながら、この優れた性能を実現し、モデル圧縮とタスク精度のトレードオフをより効果的に確立する。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Pivoting Factorization: A Compact Meta Low-Rank Representation of Sparsity for Efficient Inference in Large Language Models [1.6385815610837167]
Pivoting Factorization (PIFA) は、任意の低ランク表現のコンパクトな形式を教師なしで学習する新しい低ランク表現である。
PIFAは24.2%のメモリ節約と24.6%の高速化を実現している。
MPIFAは、MとPIFAをエンドツーエンドのフレームワークに統合し、既存の低ランクプルーニング手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-31T12:36:31Z) - A Proximal Operator for Inducing 2:4-Sparsity [68.98036844970986]
我々は、特徴の局所的相関を利用して、訓練されたモデルでより良い空間マスクを求める正則化器を導出する。
本手法を玩具問題に適用し,最大70Bパラメータの大規模言語モデル全体の解析に適用する。
論文 参考訳(メタデータ) (2025-01-29T22:05:17Z) - Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。