論文の概要: MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models
- arxiv url: http://arxiv.org/abs/2506.12876v1
- Date: Sun, 15 Jun 2025 15:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.011286
- Title: MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models
- Title(参考訳): MaskPro: Strict (N:M)-Sparsity on Large Language Models
- Authors: Yan Sun, Qixin Zhang, Zhiyuan Yu, Xikun Zhang, Li Shen, Dacheng Tao,
- Abstract要約: 半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。
既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。
MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
- 参考スコア(独自算出の注目度): 53.36415620647177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid scaling of large language models (LLMs) has made inference efficiency a primary bottleneck in the practical deployment. To address this, semi-structured sparsity offers a promising solution by strategically retaining $N$ elements out of every $M$ weights, thereby enabling hardware-friendly acceleration and reduced memory. However, existing (N:M)-compatible approaches typically fall into two categories: rule-based layerwise greedy search, which suffers from considerable errors, and gradient-driven combinatorial learning, which incurs prohibitive training costs. To tackle these challenges, we propose a novel linear-space probabilistic framework named MaskPro, which aims to learn a prior categorical distribution for every $M$ consecutive weights and subsequently leverages this distribution to generate the (N:M)-sparsity throughout an $N$-way sampling without replacement. Furthermore, to mitigate the training instability induced by the high variance of policy gradients in the super large combinatorial space, we propose a novel update method by introducing a moving average tracker of loss residuals instead of vanilla loss. Finally, we conduct comprehensive theoretical analysis and extensive experiments to validate the superior performance of MaskPro, as well as its excellent scalability in memory efficiency and exceptional robustness to data samples. Our code is available at https://github.com/woodenchild95/Maskpro.git.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速なスケーリングは、推論効率を実践的なデプロイメントにおいて主要なボトルネックにした。
これを解決するために、半構造化されたスパーシリティは、M$の重みごとにN$の要素を戦略的に保持することで、ハードウェアフレンドリーなアクセラレーションとメモリ削減を可能にする、有望なソリューションを提供する。
しかし、既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを発生させる勾配駆動の組合せ学習の2つのカテゴリに分類される。
これらの課題に対処するために,MaskProという新しい線形空間確率的フレームワークを提案する。これは,M$連続重みごとの事前のカテゴリー分布を学習することを目的としており,その後,この分布を利用して (N:M) スパーシリティを生成する。
さらに,超大型複合空間における政策勾配のばらつきによるトレーニング不安定性を軽減するため,バニラ損失ではなく損失残量の移動平均トラッカーを導入することにより,新たな更新手法を提案する。
最後に、MaskProの優れた性能を検証するための包括的な理論的解析と広範な実験を行い、メモリ効率の優れたスケーラビリティとデータサンプルに対する例外的堅牢性を検証した。
私たちのコードはhttps://github.com/woodenchild95/Maskpro.gitで利用可能です。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Self-Supervised Scalable Deep Compressed Sensing [24.854496459622787]
圧縮センシングはサンプリングコストを削減するための有望なツールである。
現在のディープニューラルネットワーク(NN)ベースのCS手法は、ラベル付き測定地上真実(GT)データ収集の課題に直面している。
本稿では,新しい$mathbfS$elf-supervised s$mathbfC$alable Deep CS法を提案する。
論文 参考訳(メタデータ) (2023-08-26T06:03:06Z) - One-Shot Online Testing of Deep Neural Networks Based on Distribution
Shift Detection [0.6091702876917281]
本研究では,1つのテストベクタのみを用いて,暗黙のクロスバー上で高速化されたNNをテストできるエミフォン・ショット・テスト手法を提案する。
私たちのアプローチは、いくつかの大きなトポロジにまたがる100%のフォールトカバレッジを一貫して達成できます。
論文 参考訳(メタデータ) (2023-05-16T11:06:09Z) - When are Local Queries Useful for Robust Learning? [25.832511407411637]
本研究では,学習者が局所的なクエリを用いてより多くのパワーを与えられる学習モデルについて検討する。
我々は、ロバストな経験的リスク最小化を行う最初の分布自由アルゴリズムを与える。
我々は、0,1n$でハーフスペースに対してロバストな学習アルゴリズムを与え、その後、精度に縛られた敵に対して$mathbbRn$でハーフスペースに対してロバスト性を保証する。
論文 参考訳(メタデータ) (2022-10-12T11:04:22Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Towards Deep Learning Models Resistant to Large Perturbations [0.0]
敵対的堅牢性は、機械学習アルゴリズムの必須特性であることが証明されている。
とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。
論文 参考訳(メタデータ) (2020-03-30T12:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。