論文の概要: Pixelated Butterfly: Simple and Efficient Sparse training for Neural
Network Models
- arxiv url: http://arxiv.org/abs/2112.00029v1
- Date: Tue, 30 Nov 2021 19:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:51:50.534920
- Title: Pixelated Butterfly: Simple and Efficient Sparse training for Neural
Network Models
- Title(参考訳): Pixelated Butterfly:ニューラルネットワークモデルのためのシンプルで効率的なスパーストレーニング
- Authors: Beidi Chen, Tri Dao, Kaizhao Liang, Jiaming Yang, Zhao Song, Atri
Rudra, Christopher Re
- Abstract要約: Pixelated Butterflyはバタフライより3倍速く、トレーニングを高速化し、良好な精度と効率のトレードオフを実現する。
ImageNet分類とWikiText-103言語モデリングタスクでは、スパースモデルは高密度ミクサー、ビジョントランスフォーマー、GPT-2メディアよりも2.5倍高速にトレーニングします。
- 参考スコア(独自算出の注目度): 24.92486575100738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterized neural networks generalize well but are expensive to train.
Ideally, one would like to reduce their computational cost while retaining
their generalization benefits. Sparse model training is a simple and promising
approach to achieve this, but there remain challenges as existing methods
struggle with accuracy loss, slow training runtime, or difficulty in
sparsifying all model components. The core problem is that searching for a
sparsity mask over a discrete set of sparse matrices is difficult and
expensive. To address this, our main insight is to optimize over a continuous
superset of sparse matrices with a fixed structure known as products of
butterfly matrices. As butterfly matrices are not hardware efficient, we
propose simple variants of butterfly (block and flat) to take advantage of
modern hardware. Our method (Pixelated Butterfly) uses a simple fixed sparsity
pattern based on flat block butterfly and low-rank matrices to sparsify most
network layers (e.g., attention, MLP). We empirically validate that Pixelated
Butterfly is 3x faster than butterfly and speeds up training to achieve
favorable accuracy--efficiency tradeoffs. On the ImageNet classification and
WikiText-103 language modeling tasks, our sparse models train up to 2.5x faster
than the dense MLP-Mixer, Vision Transformer, and GPT-2 medium with no drop in
accuracy.
- Abstract(参考訳): 過パラメータニューラルネットワークはよく一般化するが、トレーニングには費用がかかる。
理想的には、一般化の利点を保ちながら計算コストを削減したい。
スパースモデルトレーニング(sparse model training)は、これを実現するためのシンプルで有望なアプローチだが、既存のメソッドが精度の喪失、遅いトレーニングランタイム、すべてのモデルコンポーネントのスパース化の困難に苦しむため、依然として課題がある。
中心となる問題は、疎行列の離散集合上のスパーシティマスクの探索が困難で費用がかかることである。
これを解決するために、我々は蝶行列の積として知られる固定された構造を持つスパース行列の連続的なスーパーセットを最適化する。
蝶行列はハードウェア効率が良くないため,現代のハードウェアを活用するため,バタフライの単純な変種(ブロックとフラット)を提案する。
我々の手法(Pixelated Butterfly)は、フラットブロックバタフライと低ランク行列をベースとした単純な固定空間パターンを用いて、ほとんどのネットワーク層(注意, MLP)をスパース化する。
Pixelated Butterflyはバタフライより3倍速く、トレーニングをスピードアップし、良好な精度、効率のトレードオフを実現しています。
ImageNet分類とWikiText-103言語モデリングタスクでは、スパースモデルは、精度の低下のない高密度MLP-Mixer、Vision Transformer、GPT-2メディアよりも2.5倍高速にトレーニングする。
関連論文リスト
- Lite it fly: An All-Deformable-Butterfly Network [7.8460795568982435]
ほとんどのディープニューラルネットワーク(DNN)は、基本的に畳み込み層と/または完全に接続された層で構成されている。
最近提案された変形可能な蝶(DeBut)は、フィルター行列を一般化された蝶様因子に分解する。
この研究は、DeButと奥行きと点方向の畳み込みの体系的な階層との親密な関係を明らかにしている。
論文 参考訳(メタデータ) (2023-11-14T12:41:22Z) - ButterflyFlow: Building Invertible Layers with Butterfly Matrices [80.83142511616262]
そこで本研究では,蝶の層に基づく可逆線形層を新たに提案する。
可逆なバタフライ層をベースとして,バタフライフローと呼ばれる新しい正規化フローモデルを構築した。
論文 参考訳(メタデータ) (2022-09-28T01:58:18Z) - Look-ups are not (yet) all you need for deep learning inference [0.0]
行列乗算に対する高速な近似は、ニューラルネットワーク推論のコストを劇的に削減する可能性がある。
学習データから高速なハッシュ関数を組み込むことにより,コストのかかる行列乗法をテーブル・ルックアップに置き換えるための近似行列乗法に関する最近の研究が進められている。
本研究は,本研究の深層学習推論設定を対象とする,従来の研究の改善を提案する。
論文 参考訳(メタデータ) (2022-07-12T19:46:23Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z) - Sparse Linear Networks with a Fixed Butterfly Structure: Theory and
Practice [4.3400407844814985]
本稿では,バタフライネットワークに基づくアーキテクチャにより,ニューラルネットワーク内の密度線形層を置き換えることを提案する。
NLPデータと視覚データの両方の教師付き予測を含む実験のコレクションでは、これは単に既存のよく知られたアーキテクチャにマッチする結果をもたらすだけでなく、時には優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-17T09:45:03Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。