論文の概要: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency
- arxiv url: http://arxiv.org/abs/2303.11525v2
- Date: Sat, 25 Mar 2023 15:35:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 23:29:16.313160
- Title: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency
- Title(参考訳): 訓練効率を最大化するスパースIso-FLOP変換
- Authors: Shreyas Saxena, Vithursan Thangarasa, Abhay Gupta, Sean Lie
- Abstract要約: 最近の研究は、ディープニューラルネットワーク(DNN)のトレーニング効率(テスト精度w.r.tトレーニングFLOPs)を改善するために重量空間の利用を探求している。
本研究では,高密度モデルと同一のFLOPを併用し,より高精度なトレーニング効率が向上することを示す。
我々の知る限り、これはスパース変換の単純対用セットを通して密度モデルの精度を向上させるためにスパース性を利用する最初の研究である。
- 参考スコア(独自算出の注目度): 2.9207716326317246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have explored the use of weight sparsity to improve the training
efficiency (test accuracy w.r.t training FLOPs) of deep neural networks (DNNs).
These works aim to reduce training FLOPs but training with sparse weights often
leads to accuracy loss or requires longer training schedules, making the
resulting training efficiency less clear. In contrast, we focus on using
sparsity to increase accuracy while using the same FLOPs as the dense model and
show training efficiency gains through higher accuracy. In this work, we
introduce Sparse-IFT, a family of Sparse Iso-FLOP Transformations which are
used as drop-in replacements for dense layers to improve their representational
capacity and FLOP efficiency. Each transformation is parameterized by a single
hyperparameter (sparsity level) and provides a larger search space to find
optimal sparse masks. Without changing any training hyperparameters, replacing
dense layers with Sparse-IFT leads to significant improvements across computer
vision (CV) and natural language processing (NLP) tasks, including ResNet-18 on
ImageNet (+3.5%) and GPT-3 Small on WikiText-103 (-0.4 PPL), both matching
larger dense model variants that use 2x or more FLOPs. To our knowledge, this
is the first work to demonstrate the use of sparsity for improving the accuracy
of dense models via a simple-to-use set of sparse transformations. Code is
available at: https://github.com/CerebrasResearch/Sparse-IFT.
- Abstract(参考訳): 近年の研究では、ディープニューラルネットワーク(DNN)のトレーニング効率(テスト精度w.r.tトレーニングFLOPs)を改善するために重量空間の利用について検討されている。
これらの作業は、FLOPのトレーニングを減らすことを目的としているが、低重量のトレーニングは、しばしば精度の低下につながるか、より長いトレーニングスケジュールを必要とする。
対照的に,密度モデルと同じフラップを用いて精度を高めるためにsparsityを使用し,高い精度でトレーニング効率の向上を示すことに着目した。
本研究では,Sparse-IFT(Sparse-Iso-FLOP変換系)を導入し,Sparse-IFTを高密度層へのドロップイン置換として使用することにより,表現能力とFLOP効率を向上させる。
各変換は単一のハイパーパラメータ(スパースレベル)でパラメータ化され、最適なスパースマスクを見つけるための大きな探索空間を提供する。
トレーニングハイパーパラメータを変更することなく、密度の高い層をSparse-IFTに置き換えることで、コンピュータビジョン(CV)と自然言語処理(NLP)タスク間で大幅に改善され、ImageNetのResNet-18(+3.5%)とWikiText-103のGPT-3 Small(-0.4 PPL)はどちらも2x以上のFLOPを使用する大型の高密度モデル変種と一致する。
我々の知る限り、これはスパース変換の単純対用セットを通して密度モデルの精度を向上させるためにスパース性を利用する最初の研究である。
コードはhttps://github.com/cerebrasresearch/sparse-ift。
関連論文リスト
- Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Weights Augmentation: it has never ever ever ever let her model down [1.5020330976600735]
本稿では,重量増大の概念を,重量探査に焦点をあてて提案する。
ウェイト増強戦略(Weight Augmentation Strategy, WAS)とは、損失関数の計算に使用できるネットワークに対して、ランダムに変換されたウェイト係数のトレーニングと変換を行う手法である。
我々の実験結果は、VGG-16、ResNet-18、ResNet-34、GoogleNet、MobilementV2、Efficientment-Liteといった畳み込みニューラルネットワークが、ほとんど、あるいは全くコストがかからないことを示しています。
論文 参考訳(メタデータ) (2024-05-30T00:57:06Z) - Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like
Speed [42.861344584752]
従来は検出不要であったLoFTRは、大きな視点の変化とテクスチャ・ポーアのシナリオを扱う際、顕著な整合性を示した。
設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。
提案手法は,競争力のあるセミセンス・マーカと比較して高い精度を実現することができる。
論文 参考訳(メタデータ) (2024-03-07T18:58:40Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks [2.6742343015805083]
本稿では,ニューラルネットワーク内に存在する空間の均一分布を探索するグラディエント・アナリング(GA)を提案する。
GAは、余剰を誘導する正規化を必要とせずに、余剰と正確性の間のエレガントなトレードオフを提供する。
GAと最新の学習可能なプルーニング手法を統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成する。
論文 参考訳(メタデータ) (2023-04-14T06:19:07Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。