Fugu-MT 論文翻訳(概要): MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models

論文の概要: MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models

arxiv url: http://arxiv.org/abs/2506.12876v1
Date: Sun, 15 Jun 2025 15:02:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:47.011286
Title: MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models
Title（参考訳）: MaskPro: Strict (N:M)-Sparsity on Large Language Models
Authors: Yan Sun, Qixin Zhang, Zhiyuan Yu, Xikun Zhang, Li Shen, Dacheng Tao,
Abstract要約: 半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。 MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
参考スコア（独自算出の注目度）: 53.36415620647177
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid scaling of large language models (LLMs) has made inference efficiency a primary bottleneck in the practical deployment. To address this, semi-structured sparsity offers a promising solution by strategically retaining $N$ elements out of every $M$ weights, thereby enabling hardware-friendly acceleration and reduced memory. However, existing (N:M)-compatible approaches typically fall into two categories: rule-based layerwise greedy search, which suffers from considerable errors, and gradient-driven combinatorial learning, which incurs prohibitive training costs. To tackle these challenges, we propose a novel linear-space probabilistic framework named MaskPro, which aims to learn a prior categorical distribution for every $M$ consecutive weights and subsequently leverages this distribution to generate the (N:M)-sparsity throughout an $N$-way sampling without replacement. Furthermore, to mitigate the training instability induced by the high variance of policy gradients in the super large combinatorial space, we propose a novel update method by introducing a moving average tracker of loss residuals instead of vanilla loss. Finally, we conduct comprehensive theoretical analysis and extensive experiments to validate the superior performance of MaskPro, as well as its excellent scalability in memory efficiency and exceptional robustness to data samples. Our code is available at https://github.com/woodenchild95/Maskpro.git.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速なスケーリングは、推論効率を実践的なデプロイメントにおいて主要なボトルネックにした。これを解決するために、半構造化されたスパーシリティは、M$の重みごとにN$の要素を戦略的に保持することで、ハードウェアフレンドリーなアクセラレーションとメモリ削減を可能にする、有望なソリューションを提供する。しかし、既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを発生させる勾配駆動の組合せ学習の2つのカテゴリに分類される。これらの課題に対処するために,MaskProという新しい線形空間確率的フレームワークを提案する。これは,M$連続重みごとの事前のカテゴリー分布を学習することを目的としており,その後,この分布を利用して (N:M) スパーシリティを生成する。さらに,超大型複合空間における政策勾配のばらつきによるトレーニング不安定性を軽減するため,バニラ損失ではなく損失残量の移動平均トラッカーを導入することにより,新たな更新手法を提案する。最後に、MaskProの優れた性能を検証するための包括的な理論的解析と広範な実験を行い、メモリ効率の優れたスケーラビリティとデータサンプルに対する例外的堅牢性を検証した。私たちのコードはhttps://github.com/woodenchild95/Maskpro.gitで利用可能です。

関連論文リスト

Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。 GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-16T02:24:21Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Sparse Linear Bandits with Blocking Constraints [22.01704171400845]
データ・ポーア・システマにおける高次元スパース線形包帯問題について検討する。線形モデルに対するラッソ推定器の新たなオフライン統計的保証を示す。本稿では,最小限のコストで最適空間パラメータ$k$の知識を必要としない相関に基づくメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-26T01:42:03Z)
Self-Supervised Scalable Deep Compressed Sensing [24.854496459622787]
圧縮センシングはサンプリングコストを削減するための有望なツールである。現在のディープニューラルネットワーク(NN)ベースのCS手法は、ラベル付き測定地上真実(GT)データ収集の課題に直面している。本稿では,新しい$mathbfS$elf-supervised s$mathbfC$alable Deep CS法を提案する。
論文参考訳（メタデータ） (2023-08-26T06:03:06Z)
One-Shot Online Testing of Deep Neural Networks Based on Distribution Shift Detection [0.6091702876917281]
本研究では,1つのテストベクタのみを用いて,暗黙のクロスバー上で高速化されたNNをテストできるエミフォン・ショット・テスト手法を提案する。私たちのアプローチは、いくつかの大きなトポロジにまたがる100%のフォールトカバレッジを一貫して達成できます。
論文参考訳（メタデータ） (2023-05-16T11:06:09Z)
Supervised Contrastive Prototype Learning: Augmentation Free Robust Neural Network [17.10753224600936]
ディープニューラルネットワーク(DNN)の入力空間における変換は、特徴空間の意図しない変化をもたらす。我々は、SCPL (textbfd Contrastive Prototype Learning$) というトレーニングフレームワークを提案する。同じクラスと反対クラスのプロトタイプでNペアの対照的な損失を使用し、分類ヘッドを$textbfPrototype Classification Head(PCH)で置き換える。私たちのアプローチは、$textitsample efficient$、$textitsample mining$、既存のどのDNNでも変更せずに実装できます。
論文参考訳（メタデータ） (2022-11-26T01:17:15Z)
When are Local Queries Useful for Robust Learning? [25.832511407411637]
本研究では,学習者が局所的なクエリを用いてより多くのパワーを与えられる学習モデルについて検討する。我々は、ロバストな経験的リスク最小化を行う最初の分布自由アルゴリズムを与える。我々は、0,1n$でハーフスペースに対してロバストな学習アルゴリズムを与え、その後、精度に縛られた敵に対して$mathbbRn$でハーフスペースに対してロバスト性を保証する。
論文参考訳（メタデータ） (2022-10-12T11:04:22Z)
Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文参考訳（メタデータ） (2021-10-09T21:13:48Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文参考訳（メタデータ） (2020-05-26T17:53:18Z)
Towards Deep Learning Models Resistant to Large Perturbations [0.0]
敵対的堅牢性は、機械学習アルゴリズムの必須特性であることが証明されている。とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。
論文参考訳（メタデータ） (2020-03-30T12:03:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。