Fugu-MT 論文翻訳(概要): Monarch: Expressive Structured Matrices for Efficient and Accurate Training

論文の概要: Monarch: Expressive Structured Matrices for Efficient and Accurate Training

arxiv url: http://arxiv.org/abs/2204.00595v1
Date: Fri, 1 Apr 2022 17:37:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-04 14:36:00.561803
Title: Monarch: Expressive Structured Matrices for Efficient and Accurate Training
Title（参考訳）: Monarch: 効率的かつ正確なトレーニングのための表現型構造化行列
Authors: Tri Dao, Beidi Chen, Nimit Sohoni, Arjun Desai, Michael Poli, Jessica Grogan, Alexander Liu, Aniruddh Rao, Atri Rudra, Christopher R\'e
Abstract要約: 大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。ハードウェア効率のよい行列(Monarch)のクラスを提案する。
参考スコア（独自算出の注目度）: 64.6871423399431
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large neural networks excel in many domains, but they are expensive to train and fine-tune. A popular approach to reduce their compute or memory requirements is to replace dense weight matrices with structured ones (e.g., sparse, low-rank, Fourier transform). These methods have not seen widespread adoption (1) in end-to-end training due to unfavorable efficiency--quality tradeoffs, and (2) in dense-to-sparse fine-tuning due to lack of tractable algorithms to approximate a given dense weight matrix. To address these issues, we propose a class of matrices (Monarch) that is hardware-efficient (they are parameterized as products of two block-diagonal matrices for better hardware utilization) and expressive (they can represent many commonly used transforms). Surprisingly, the problem of approximating a dense weight matrix with a Monarch matrix, though nonconvex, has an analytical optimal solution. These properties of Monarch matrices unlock new ways to train and fine-tune sparse and dense models. We empirically validate that Monarch can achieve favorable accuracy-efficiency tradeoffs in several end-to-end sparse training applications: speeding up ViT and GPT-2 training on ImageNet classification and Wikitext-103 language modeling by 2x with comparable model quality, and reducing the error on PDE solving and MRI reconstruction tasks by 40%. In sparse-to-dense training, with a simple technique called "reverse sparsification," Monarch matrices serve as a useful intermediate representation to speed up GPT-2 pretraining on OpenWebText by 2x without quality drop. The same technique brings 23% faster BERT pretraining than even the very optimized implementation from Nvidia that set the MLPerf 1.1 record. In dense-to-sparse fine-tuning, as a proof-of-concept, our Monarch approximation algorithm speeds up BERT fine-tuning on GLUE by 1.7x with comparable accuracy.
Abstract（参考訳）: 大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。計算やメモリの要求を減らす一般的なアプローチは、密度の高い行列を構造化された行列(例えばスパース、ローランク、フーリエ変換)に置き換えることである。これらの手法は,(1)好ましくない効率-品質トレードオフによるエンドツーエンドトレーニング,(2)与えられた重み行列を近似するトラクタブルアルゴリズムの欠如による細粒度調整において広く採用されていない。これらの問題に対処するために、ハードウェア効率(ハードウェア利用性を向上させるために2つのブロック対角行列の積としてパラメータ化される)と表現力(多くの一般的な変換を表現できる)を持つ行列(モナック)のクラスを提案する。驚くべきことに、密重行列を君主行列と近似する問題は、非凸であるが、解析的最適解を持つ。君主行列のこれらの性質は、微弱で密集した模型を訓練する新しい方法を解き明かす。画像ネット分類におけるViTおよびGPT-2トレーニングとWikitext-103言語モデリングを2倍のモデル品質で高速化し、PDE解決およびMRI再構成タスクにおける誤差を40%削減する。 sparse-to-denseトレーニングでは、"reverse sparsification"と呼ばれる単純なテクニックで、モナール行列は、品質低下なしにOpenWebText上の2倍のGPT-2事前トレーニングをスピードアップする便利な中間表現として機能する。同じテクニックは、MLPerf 1.1を記録づけたNvidiaによる非常に最適化された実装よりも23%高速なBERTプリトレーニングをもたらす。密度とスパースによる微調整では、概念実証として、我々のMonarch近似アルゴリズムは、GLUE上のBERT微調整を1.7倍の精度で高速化する。

関連論文リスト

Orthogonal Finetuning Made Scalable [87.49040247077389]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。これらの修正により、OFTv2はパフォーマンスを損なうことなく、最大10倍高速なトレーニングと3倍のGPUメモリ使用率を達成することができる。
論文参考訳（メタデータ） (2025-06-24T17:59:49Z)
An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks [8.779871128906787]
大規模言語モデル(LLM)は、高度な計算インフラに依存しながら推論の非効率さに悩まされる。 3次重み付き1.58ビットLLMの推論時間とメモリ効率を改善するアルゴリズムを提案する。その結果,時間とメモリの両面でのアプローチの優位性が確認され,推論時間は最大29倍,メモリ使用量は最大6倍に短縮された。
論文参考訳（メタデータ） (2024-11-10T04:56:14Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文参考訳（メタデータ） (2024-09-27T15:48:39Z)
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。 WeLore(Weight Low-Rank Projection)を提案する。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文参考訳（メタデータ） (2024-06-10T13:25:43Z)
Towards Higher Ranks via Adversarial Weight Pruning [34.602137305496335]
逆方向のスパース重みのランクを維持するために,ランクベースのPruninG(RPG)手法を提案する。 RPGは、ResNet-50のImageNetで1.13%の精度で最先端のパフォーマンスを98%で上回っている。
論文参考訳（メタデータ） (2023-11-29T10:04:39Z)
RSC: Accelerating Graph Neural Networks Training via Randomized Sparse Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文参考訳（メタデータ） (2022-10-19T17:25:33Z)
Pixelated Butterfly: Simple and Efficient Sparse training for Neural Network Models [24.92486575100738]
Pixelated Butterflyはバタフライより3倍速く、トレーニングを高速化し、良好な精度と効率のトレードオフを実現する。 ImageNet分類とWikiText-103言語モデリングタスクでは、スパースモデルは高密度ミクサー、ビジョントランスフォーマー、GPT-2メディアよりも2.5倍高速にトレーニングします。
論文参考訳（メタデータ） (2021-11-30T19:00:03Z)
Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文参考訳（メタデータ） (2021-09-10T07:01:15Z)
Exact Backpropagation in Binary Weighted Networks with Group Weight Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文参考訳（メタデータ） (2021-07-03T10:29:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。