Fugu-MT 論文翻訳(概要): A Proximal Operator for Inducing 2:4-Sparsity

論文の概要: A Proximal Operator for Inducing 2:4-Sparsity

arxiv url: http://arxiv.org/abs/2501.18015v1
Date: Wed, 29 Jan 2025 22:05:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:03.974045
Title: A Proximal Operator for Inducing 2:4-Sparsity
Title（参考訳）: 2:4-スパーシティーを誘導する近位演算子
Authors: Jonas M Kübler, Yu-Xiang Wang, Shoham Sabach, Navid Ansari, Matthäus Kleindessner, Kailash Budhathoki, Volkan Cevher, George Karypis,
Abstract要約: 我々は、特徴の局所的相関を利用して、訓練されたモデルでより良い空間マスクを求める正則化器を導出する。本手法を玩具問題に適用し,最大70Bパラメータの大規模言語モデル全体の解析に適用する。
参考スコア（独自算出の注目度）: 68.98036844970986
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent hardware advancements in AI Accelerators and GPUs allow to efficiently compute sparse matrix multiplications, especially when 2 out of 4 consecutive weights are set to zero. However, this so-called 2:4 sparsity usually comes at a decreased accuracy of the model. We derive a regularizer that exploits the local correlation of features to find better sparsity masks in trained models. We minimize the regularizer jointly with a local squared loss by deriving the proximal operator for which we show that it has an efficient solution in the 2:4-sparse case. After optimizing the mask, we use maskedgradient updates to further minimize the local squared loss. We illustrate our method on toy problems and apply it to pruning entire large language models up to 70B parameters. On models up to 13B we improve over previous state of the art algorithms, whilst on 70B models we match their performance.
Abstract（参考訳）: AIアクセラレータとGPUの最近のハードウェア進歩により、特に4つ連続する重みのうち2つがゼロに設定されている場合、スパース行列乗算を効率的に計算できる。しかし、このいわゆる2:4間隔は通常モデルの精度を低下させる。我々は、特徴の局所的相関を利用して、訓練されたモデルでより良い空間マスクを求める正則化器を導出する。 2:4-スパースの場合において効率的な解が存在することを示す近位作用素を導出することにより、局所二乗損失と共同で正則化器を最小化する。マスクを最適化した後、局所的な2乗損失をさらに最小化するために、マスク付き漸進的な更新を使用する。本手法を玩具問題に適用し,最大70Bパラメータの大規模言語モデル全体の解析に適用する。 13Bまでのモデルでは、従来の最先端アルゴリズムよりも改善され、70Bモデルではパフォーマンスにマッチします。

関連論文リスト

1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering [60.676919690136096]
最新のシーンGPU上で1000FPS以上で動作する textbf4DGS-1K を提案する。 Q1では,短寿命ガウスを効果的に除去する新しいプルーニング基準である空間時間変動スコアを導入する。 Q2では、連続するフレーム間でアクティブなガウスのマスクを格納し、レンダリングにおける冗長な計算を著しく削減する。
論文参考訳（メタデータ） (2025-03-20T17:59:44Z)
Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
ネットワークプルーニングのためのemphtop-upアルゴリズムであるtextscNeuroALを提案する。これは、高密度モデルとスパースバージョンの両方から情報を利用するブロックワイドと行ワイドのスパース性を変更する。パフォーマンスと実行時のトレードオフの観点から、最新の最先端の手法を一貫して上回ります。
論文参考訳（メタデータ） (2024-11-11T15:30:16Z)
Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文参考訳（メタデータ） (2024-09-27T15:48:39Z)
S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training [20.113352600259226]
S-STEは,2:4スパースに連続的に重みを投影し,テンソルごとの固定スケーリング係数でスパース重みを再スケールする,シンプルな2:4トレーニング手法である。その結果,本手法は以前の2:4の事前学習レシピを超え,完全なパラメータモデルでも同等であることがわかった。
論文参考訳（メタデータ） (2024-09-13T08:29:36Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
SliceGPT: Compress Large Language Models by Deleting Rows and Columns [27.004657436024853]
SliceGPTは,各重み行列をより小さい(高密度)行列に置き換え,ネットワークの埋め込み次元を小さくする,新しい学習後スペーシング方式である。 SliceGPT は LLAMA2-70B OPT 66B と Phi-2 のモデルパラメータの最大25% (埋め込みを含む) を,99%,99%,90% のゼロショットタスク性能を維持しながら除去可能であることを示す。
論文参考訳（メタデータ） (2024-01-26T17:35:45Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
Monarch: Expressive Structured Matrices for Efficient and Accurate Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文参考訳（メタデータ） (2022-04-01T17:37:29Z)
Minimum Variance Unbiased N:M Sparsity for the Neural Gradients [29.555643722721882]
ディープラーニングでは、粒度の細かいN:Mは、GEMM(General Matrix multiply)のデータフットプリントと帯域幅をx2まで削減する。本稿では,この手法を神経勾配にも適用する方法について検討する。
論文参考訳（メタデータ） (2022-03-21T13:59:43Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)
Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise Sparsity [12.643043455369297]
本稿では,既存の高密度アーキテクチャ上での遅延高速化を実現するアルゴリズム-ソフトウェア共設計プルーニング手法を提案する。我々はGPUテンソルコア上でのスパーシティパターンの実装と評価を行い,高密度モデル上での1.95倍の高速化を実現した。
論文参考訳（メタデータ） (2020-08-29T16:27:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。