論文の概要: PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
- arxiv url: http://arxiv.org/abs/2510.10136v1
- Date: Sat, 11 Oct 2025 09:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.801889
- Title: PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
- Title(参考訳): PermLLM:N:Mスパース大言語モデルのための学習可能なチャネル置換
- Authors: Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu,
- Abstract要約: チャネル置換はN:Mスパースモデルの精度を高めるための強力な手法である。
本稿では,学習可能なチャネル置換を導入したポストトレーニング・プルーニングフレームワークPermLLMを提案する。
我々は,N:Mスパースモデルの最適化において,PermLLMが優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 44.32585496684303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.
- Abstract(参考訳): チャネル置換は、重みの保持を優先するために重み行列のチャネルを並べ替えることで、N:Mスパースモデルの精度を高める強力な手法である。
しかし、従来のチャネル置換法は手作りの品質指標に依存しており、しばしばプルーニングがモデルの性能に与える影響を正確に把握することができない。
この制限に対処するために、N:Mスパシティのための学習可能なチャネル置換(LCP)を導入した、新しいトレーニング後プルーニングフレームワークPermLLMを提案する。
LCPはシンクホーン正規化を利用して離散置換行列を微分可能なソフト置換行列に変換し、エンドツーエンドの最適化を可能にする。
さらに、PermLLMは効率的なブロックワイドチャネル置換戦略を導入し、学習可能なパラメータの数と計算複雑性を大幅に削減する。
PermLLMは既存のワンショットプルーニング手法とシームレスに統合され、チャネル置換を適応的に最適化し、プルーニングによるエラーを効果的に軽減する。
LLaMAシリーズ、Qwenモデル、OPTモデルに対する大規模な実験により、PermLLMはN:Mスパースモデルの最適化において優れた性能を発揮することが示された。
コードはhttps://github.com/lanchengzou/PermLLM.comで公開されている。
関連論文リスト
- TSENOR: Highly-Efficient Algorithm for Finding Transposable N:M Sparse Masks [12.33715367032615]
ネットワークプルーニングは、大規模なニューラルネットワークの計算要求を減らす。
N:M 間隔は、M の連続重みのうち N だけを保持する。
変換可能なN:M空間は、この制限に対処するために提案されている。
論文 参考訳(メタデータ) (2025-05-29T18:59:43Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Toward Efficient Permutation for Hierarchical N:M Sparsity on GPUs [1.3124513975412255]
N:Mスパシティ・プルーニングは、ディープニューラルネットワークを圧縮する強力な技術である。
ジャイロ置換(gyro-permutation)と呼ばれるHiNM空間に特化して設計されたチャネル置換法を提案する。
論文 参考訳(メタデータ) (2024-07-30T01:40:50Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models [44.515165695546614]
量子化アウェアトレーニング(QAT)はソリューションを提供するが、トレーニング後の量子化(PTQ)は大規模言語モデル(LLM)のより実践的なアプローチとなる。
LLM向けに設計された高精度かつ効率的な低ビット幅PTQ法QLLMを提案する。
論文 参考訳(メタデータ) (2023-10-12T05:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。