論文の概要: Pixelated Butterfly: Simple and Efficient Sparse training for Neural
Network Models
- arxiv url: http://arxiv.org/abs/2112.00029v1
- Date: Tue, 30 Nov 2021 19:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:51:50.534920
- Title: Pixelated Butterfly: Simple and Efficient Sparse training for Neural
Network Models
- Title(参考訳): Pixelated Butterfly:ニューラルネットワークモデルのためのシンプルで効率的なスパーストレーニング
- Authors: Beidi Chen, Tri Dao, Kaizhao Liang, Jiaming Yang, Zhao Song, Atri
Rudra, Christopher Re
- Abstract要約: Pixelated Butterflyはバタフライより3倍速く、トレーニングを高速化し、良好な精度と効率のトレードオフを実現する。
ImageNet分類とWikiText-103言語モデリングタスクでは、スパースモデルは高密度ミクサー、ビジョントランスフォーマー、GPT-2メディアよりも2.5倍高速にトレーニングします。
- 参考スコア(独自算出の注目度): 24.92486575100738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterized neural networks generalize well but are expensive to train.
Ideally, one would like to reduce their computational cost while retaining
their generalization benefits. Sparse model training is a simple and promising
approach to achieve this, but there remain challenges as existing methods
struggle with accuracy loss, slow training runtime, or difficulty in
sparsifying all model components. The core problem is that searching for a
sparsity mask over a discrete set of sparse matrices is difficult and
expensive. To address this, our main insight is to optimize over a continuous
superset of sparse matrices with a fixed structure known as products of
butterfly matrices. As butterfly matrices are not hardware efficient, we
propose simple variants of butterfly (block and flat) to take advantage of
modern hardware. Our method (Pixelated Butterfly) uses a simple fixed sparsity
pattern based on flat block butterfly and low-rank matrices to sparsify most
network layers (e.g., attention, MLP). We empirically validate that Pixelated
Butterfly is 3x faster than butterfly and speeds up training to achieve
favorable accuracy--efficiency tradeoffs. On the ImageNet classification and
WikiText-103 language modeling tasks, our sparse models train up to 2.5x faster
than the dense MLP-Mixer, Vision Transformer, and GPT-2 medium with no drop in
accuracy.
- Abstract(参考訳): 過パラメータニューラルネットワークはよく一般化するが、トレーニングには費用がかかる。
理想的には、一般化の利点を保ちながら計算コストを削減したい。
スパースモデルトレーニング(sparse model training)は、これを実現するためのシンプルで有望なアプローチだが、既存のメソッドが精度の喪失、遅いトレーニングランタイム、すべてのモデルコンポーネントのスパース化の困難に苦しむため、依然として課題がある。
中心となる問題は、疎行列の離散集合上のスパーシティマスクの探索が困難で費用がかかることである。
これを解決するために、我々は蝶行列の積として知られる固定された構造を持つスパース行列の連続的なスーパーセットを最適化する。
蝶行列はハードウェア効率が良くないため,現代のハードウェアを活用するため,バタフライの単純な変種(ブロックとフラット)を提案する。
我々の手法(Pixelated Butterfly)は、フラットブロックバタフライと低ランク行列をベースとした単純な固定空間パターンを用いて、ほとんどのネットワーク層(注意, MLP)をスパース化する。
Pixelated Butterflyはバタフライより3倍速く、トレーニングをスピードアップし、良好な精度、効率のトレードオフを実現しています。
ImageNet分類とWikiText-103言語モデリングタスクでは、スパースモデルは、精度の低下のない高密度MLP-Mixer、Vision Transformer、GPT-2メディアよりも2.5倍高速にトレーニングする。
関連論文リスト
- Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Lite it fly: An All-Deformable-Butterfly Network [7.8460795568982435]
ほとんどのディープニューラルネットワーク(DNN)は、基本的に畳み込み層と/または完全に接続された層で構成されている。
最近提案された変形可能な蝶(DeBut)は、フィルター行列を一般化された蝶様因子に分解する。
この研究は、DeButと奥行きと点方向の畳み込みの体系的な階層との親密な関係を明らかにしている。
論文 参考訳(メタデータ) (2023-11-14T12:41:22Z) - ButterflyFlow: Building Invertible Layers with Butterfly Matrices [80.83142511616262]
そこで本研究では,蝶の層に基づく可逆線形層を新たに提案する。
可逆なバタフライ層をベースとして,バタフライフローと呼ばれる新しい正規化フローモデルを構築した。
論文 参考訳(メタデータ) (2022-09-28T01:58:18Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Sparse Linear Networks with a Fixed Butterfly Structure: Theory and
Practice [4.3400407844814985]
本稿では,バタフライネットワークに基づくアーキテクチャにより,ニューラルネットワーク内の密度線形層を置き換えることを提案する。
NLPデータと視覚データの両方の教師付き予測を含む実験のコレクションでは、これは単に既存のよく知られたアーキテクチャにマッチする結果をもたらすだけでなく、時には優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-17T09:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。