Fugu-MT 論文翻訳(概要): BLaST: High Performance Inference and Pretraining using BLock Sparse Transformers

論文の概要: BLaST: High Performance Inference and Pretraining using BLock Sparse Transformers

arxiv url: http://arxiv.org/abs/2507.03117v2
Date: Sun, 26 Oct 2025 10:28:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 15:28:14.396456
Title: BLaST: High Performance Inference and Pretraining using BLock Sparse Transformers
Title（参考訳）: BLaST:BLockスパース変換器を用いた高性能推論と事前学習
Authors: Patrik Okanovic, Sameer Deshmukh, Grzegorz Kwasniewski, Yi Zhu, Haruto Fujii, Sakina Fatima, Maciej Besta, Kentaro Katayama, Takumi Honda, Yusuke Nagasaka, Torsten Hoefler,
Abstract要約: Bl)ock (a)nd (S)parse (T)ransformers (BLaST)を紹介する。 BLaST は行列乗算における最大95%の間隔と無視可能な精度損失を達成できる。推論メモリフットプリントを4.45倍削減した16GPUのLlama 3.2の2.2倍の推論速度を示す。
参考スコア（独自算出の注目度）: 18.53326467276254
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The energy consumption of large-scale ML models is dominated by data movement, shuffling billions of parameters across memory hierarchies and data centers. Sparsification offers a principled way to mitigate these costs by pruning redundant weights and activations, thereby reducing data movement. Effective sparsification to prune redundant parameters is still challenging: existing methods incur significant accuracy degradation, performance overhead, or both. We introduce (Bl)ock (a)nd (S)parse (T)ransformers (BLaST), a general, robust, and reliable method for sparsification, applicable to linear layers in all settings. Our method iteratively sparsifies weight matrices into a block sparsity pattern suitable for efficient sparse matrix-matrix (SpMM) multiplication. BLaST achieves up to 95% sparsity in MLP weights with negligible accuracy loss (majority <2.25%). We show a 2.2x inference speedup for Llama 3.2 with 16 GPUs, and up to 4.45x reduction in inference memory footprint resulting in a 2.9x reduction in GPU setup and operating costs.
Abstract（参考訳）: 大規模MLモデルのエネルギー消費は、データ移動に支配され、メモリ階層やデータセンターに何十億ものパラメータをシャッフルする。スパシフィケーションは、冗長な重みとアクティベーションを刈り上げ、データ移動を減らすことによって、これらのコストを軽減するための原則化された方法を提供する。既存のメソッドは、大幅な精度の低下、パフォーマンスのオーバーヘッド、あるいはその両方を引き起こす。 Bl)ock (a)nd (S)parse (T)ransformers (BLaST) を導入する。提案手法は,重み行列を効率的なスパース行列行列(SpMM)乗算に適したブロック間隔パターンに反復的に分割する。 BLaST は最大95%の MLP 重量を許容できない精度の損失(2.25%)で達成する。我々は16GPUのLlama 3.2の2.2倍の推論スピードアップを示し、最大4.45倍の推論メモリフットプリントを削減し、2.9倍のGPUセットアップと運用コストを削減した。

関連論文リスト

Kernelized Sparse Fine-Tuning with Bi-level Parameter Competition for Vision Models [80.50996301430108]
スパースチューニングは、下流タスクに最も関係のある重みだけを調整することで、顕著なパフォーマンスを達成する。上述の制限を克服する一段法SNELLAを提案する。 SNELLAは低メモリ使用量でSOTA性能を達成する。
論文参考訳（メタデータ） (2025-10-28T03:39:18Z)
Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文参考訳（メタデータ） (2025-07-10T18:04:52Z)
Accelerating Large Language Models through Partially Linear Feed-Forward Network [6.916037014703829]
大規模言語モデル(LLM)は、優れた機能を示すが、巨大なパラメータ数のため、デプロイメントの課題に直面している。コンパイラ最適化における定数折り畳みに着想を得た新しい視点を示す。頻繁に発生する入力範囲における線形関数を部分的に近似することにより,非線形なアクティベーションを伴うLLMの最適化を可能にするTARDISを提案する。実験により、TARDISはフィードフォワードネットワークの80%のパラメータ削減を実現し、最先端のプルーニング手法であるWandaとRIAの精度は最大65%向上した。
論文参考訳（メタデータ） (2025-01-17T09:20:56Z)
Efficient Model Compression Techniques with FishLeg [30.69238973086908]
FishLegはFisher-Legendre(FishLeg)に基づく新しい二階刈り法である FishLegの心臓部は、逆FIMの作用を補うメタラーニングアプローチである。 FishLegは,2つの共通ベースラインに対して高い,あるいは同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-12-03T09:42:16Z)
Sparser Training for On-Device Recommendation Systems [50.74019319100728]
動的スパーストレーニング(DST)に基づく軽量埋め込み手法であるスパースRecを提案する。これは、重要なベクトルの部分集合をサンプリングすることによって、バックプロパゲーション中の密度勾配を避ける。
論文参考訳（メタデータ） (2024-11-19T03:48:48Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文参考訳（メタデータ） (2024-09-26T14:17:58Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。 LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文参考訳（メタデータ） (2024-02-21T05:03:17Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
Sparse Fine-tuning for Inference Acceleration of Large Language Models [48.285897264669984]
大規模言語モデル(LLM)の精密細粒度調整の問題点について考察する。蒸留型損失の詳細な研究を行い,L2に基づく蒸留手法をSquareHeadと呼ぶ。 MPTテキスト生成では、細かな微調整が精度低下なしに75%の間隔に到達できることを初めて示す。
論文参考訳（メタデータ） (2023-10-10T18:28:38Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。 Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2022-05-23T02:43:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。