論文の概要: Monarch: Expressive Structured Matrices for Efficient and Accurate
Training
- arxiv url: http://arxiv.org/abs/2204.00595v1
- Date: Fri, 1 Apr 2022 17:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:36:00.561803
- Title: Monarch: Expressive Structured Matrices for Efficient and Accurate
Training
- Title(参考訳): Monarch: 効率的かつ正確なトレーニングのための表現型構造化行列
- Authors: Tri Dao, Beidi Chen, Nimit Sohoni, Arjun Desai, Michael Poli, Jessica
Grogan, Alexander Liu, Aniruddh Rao, Atri Rudra, Christopher R\'e
- Abstract要約: 大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
- 参考スコア(独自算出の注目度): 64.6871423399431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large neural networks excel in many domains, but they are expensive to train
and fine-tune. A popular approach to reduce their compute or memory
requirements is to replace dense weight matrices with structured ones (e.g.,
sparse, low-rank, Fourier transform). These methods have not seen widespread
adoption (1) in end-to-end training due to unfavorable efficiency--quality
tradeoffs, and (2) in dense-to-sparse fine-tuning due to lack of tractable
algorithms to approximate a given dense weight matrix. To address these issues,
we propose a class of matrices (Monarch) that is hardware-efficient (they are
parameterized as products of two block-diagonal matrices for better hardware
utilization) and expressive (they can represent many commonly used transforms).
Surprisingly, the problem of approximating a dense weight matrix with a Monarch
matrix, though nonconvex, has an analytical optimal solution. These properties
of Monarch matrices unlock new ways to train and fine-tune sparse and dense
models. We empirically validate that Monarch can achieve favorable
accuracy-efficiency tradeoffs in several end-to-end sparse training
applications: speeding up ViT and GPT-2 training on ImageNet classification and
Wikitext-103 language modeling by 2x with comparable model quality, and
reducing the error on PDE solving and MRI reconstruction tasks by 40%. In
sparse-to-dense training, with a simple technique called "reverse
sparsification," Monarch matrices serve as a useful intermediate representation
to speed up GPT-2 pretraining on OpenWebText by 2x without quality drop. The
same technique brings 23% faster BERT pretraining than even the very optimized
implementation from Nvidia that set the MLPerf 1.1 record. In dense-to-sparse
fine-tuning, as a proof-of-concept, our Monarch approximation algorithm speeds
up BERT fine-tuning on GLUE by 1.7x with comparable accuracy.
- Abstract(参考訳): 大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリの要求を減らす一般的なアプローチは、密度の高い行列を構造化された行列(例えばスパース、ローランク、フーリエ変換)に置き換えることである。
これらの手法は,(1)好ましくない効率-品質トレードオフによるエンドツーエンドトレーニング,(2)与えられた重み行列を近似するトラクタブルアルゴリズムの欠如による細粒度調整において広く採用されていない。
これらの問題に対処するために、ハードウェア効率(ハードウェア利用性を向上させるために2つのブロック対角行列の積としてパラメータ化される)と表現力(多くの一般的な変換を表現できる)を持つ行列(モナック)のクラスを提案する。
驚くべきことに、密重行列を君主行列と近似する問題は、非凸であるが、解析的最適解を持つ。
君主行列のこれらの性質は、微弱で密集した模型を訓練する新しい方法を解き明かす。
画像ネット分類におけるViTおよびGPT-2トレーニングとWikitext-103言語モデリングを2倍のモデル品質で高速化し、PDE解決およびMRI再構成タスクにおける誤差を40%削減する。
sparse-to-denseトレーニングでは、"reverse sparsification"と呼ばれる単純なテクニックで、モナール行列は、品質低下なしにOpenWebText上の2倍のGPT-2事前トレーニングをスピードアップする便利な中間表現として機能する。
同じテクニックは、MLPerf 1.1を記録づけたNvidiaによる非常に最適化された実装よりも23%高速なBERTプリトレーニングをもたらす。
密度とスパースによる微調整では、概念実証として、我々のMonarch近似アルゴリズムは、GLUE上のBERT微調整を1.7倍の精度で高速化する。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Towards Higher Ranks via Adversarial Weight Pruning [34.602137305496335]
逆方向のスパース重みのランクを維持するために,ランクベースのPruninG(RPG)手法を提案する。
RPGは、ResNet-50のImageNetで1.13%の精度で最先端のパフォーマンスを98%で上回っている。
論文 参考訳(メタデータ) (2023-11-29T10:04:39Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Pixelated Butterfly: Simple and Efficient Sparse training for Neural
Network Models [24.92486575100738]
Pixelated Butterflyはバタフライより3倍速く、トレーニングを高速化し、良好な精度と効率のトレードオフを実現する。
ImageNet分類とWikiText-103言語モデリングタスクでは、スパースモデルは高密度ミクサー、ビジョントランスフォーマー、GPT-2メディアよりも2.5倍高速にトレーニングします。
論文 参考訳(メタデータ) (2021-11-30T19:00:03Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Exact Backpropagation in Binary Weighted Networks with Group Weight
Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。
重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文 参考訳(メタデータ) (2021-07-03T10:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。