Fugu-MT 論文翻訳(概要): An Efficient Training Algorithm for Models with Block-wise Sparsity

論文の概要: An Efficient Training Algorithm for Models with Block-wise Sparsity

arxiv url: http://arxiv.org/abs/2503.21928v1
Date: Thu, 27 Mar 2025 19:14:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.458823
Title: An Efficient Training Algorithm for Models with Block-wise Sparsity
Title（参考訳）: ブロック幅を有するモデルの効率的な学習アルゴリズム
Authors: Ding Zhu, Zhiqun Zuo, Mohammad Mahdi Khalili,
Abstract要約: 本稿では,学習と推論において,計算コストとメモリコストの両方を削減できる効率的なトレーニングアルゴリズムを提案する。我々のアルゴリズムは、ベースラインに比べて性能低下を伴わずに計算とメモリコストを大幅に削減できる。
参考スコア（独自算出の注目度）: 6.882042556551613
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale machine learning (ML) models are increasingly being used in critical domains like education, lending, recruitment, healthcare, criminal justice, etc. However, the training, deployment, and utilization of these models demand substantial computational resources. To decrease computation and memory costs, machine learning models with sparse weight matrices are widely used in the literature. Among sparse models, those with special sparse structures (e.g., models with block-wise sparse weight matrices) fit better with the hardware accelerators and can decrease the memory and computation costs during the inference. Unfortunately, while there are several efficient training methods, none of them are designed to train a block-wise sparse model efficiently. As a result, the current methods for training block-wise sparse models start with full and dense models leading to inefficient training. In this work, we focus on training models with \textit{block-wise sparse matrices} and propose an efficient training algorithm to decrease both computation and memory costs during training and inference. In addition, we will show that our proposed method enables us to efficiently find the right block size for the sparsity pattern during the training process. Our extensive empirical and theoretical analyses show that our algorithms can decrease the computation and memory costs significantly without a performance drop compared to baselines.
Abstract（参考訳）: 大規模機械学習(ML)モデルは、教育、貸付、採用、医療、刑事司法などの重要な領域でますます使われている。しかし、これらのモデルの訓練、配備、利用は、かなりの計算資源を必要とする。計算とメモリコストを低減するため、疎度行列を持つ機械学習モデルが文献で広く使われている。スパースモデルでは、特別なスパース構造(例えばブロックワイズウェイト行列を持つモデル)を持つモデルがハードウェアアクセラレータに適合し、推論時のメモリと計算コストを削減できる。残念ながら、効率的なトレーニング方法はいくつかあるが、いずれもブロックワイズスパースモデルを効率的にトレーニングするために設計されたものではない。結果として、ブロックワイズスパースモデルをトレーニングする現在の方法は、非効率なトレーニングにつながるフルモデルと高密度モデルから始まります。本研究では,<textit{block-wise sparse matrices} を用いた学習モデルに焦点をあて,学習と推論における計算コストとメモリコストの両方を削減するための効率的な学習アルゴリズムを提案する。さらに,本提案手法により,トレーニング過程において,空間パターンの適切なブロックサイズを効率的に見つけることができることを示す。大規模な実験および理論的解析により,本アルゴリズムは,ベースラインに比べて性能低下を伴わずに,計算コストとメモリコストを大幅に削減できることを示した。

関連論文リスト

Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Scaling Laws for Upcycling Mixture-of-Experts Language Models [17.796361238003403]
大規模言語モデル(LLM)の事前トレーニングはリソース集約的であり、ハイエンドのGPUクラスタでも数ヶ月のトレーニング時間を必要とすることが多い。そのような計算要求を緩和する2つのアプローチがある: より小さなモデルを再利用して、より大きなモデルをトレーニングする(アップサイクル)、そして、Mix-of-experts (MoE)のような計算効率の良いモデルを訓練する。
論文参考訳（メタデータ） (2025-02-05T09:11:13Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文参考訳（メタデータ） (2024-06-24T08:43:21Z)
Always-Sparse Training by Growing Connections with Guided Stochastic Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文参考訳（メタデータ） (2024-01-12T21:32:04Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Performance and Energy Consumption of Parallel Machine Learning Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文参考訳（メタデータ） (2023-05-01T13:04:39Z)
TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文参考訳（メタデータ） (2023-03-24T17:56:22Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)
Block-wise Dynamic Sparseness [20.801638768447948]
本稿では, 入力に基づいて計算の一部を動的に省略する, エンファンダイナミックスパース性の新しい手法を提案する。提案手法は,高密度ベースラインと類似した言語モデリングの難易度を,推論時の計算コストの半額で達成する。
論文参考訳（メタデータ） (2020-01-14T10:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。