論文の概要: SIFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency
- arxiv url: http://arxiv.org/abs/2303.11525v1
- Date: Tue, 21 Mar 2023 01:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 16:56:22.726404
- Title: SIFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency
- Title(参考訳): SIFT:訓練効率を最大化するスパースIso-FLOP変換
- Authors: Shreyas Saxena, Vithursan Thangarasa, Abhay Gupta, Sean Lie
- Abstract要約: 最近の研究は、ディープニューラルネットワーク(DNN)のトレーニング効率(テスト精度w.r.tトレーニングFLOPs)を改善するために重量空間の利用を探求している。
そこで本研究では,FLOPSを高密度モデルとして用いた場合の精度向上を目的として,より高精度なトレーニング効率向上を実現する。
我々の知る限りでは、これはスパース変換の単純対用セットを通じて高密度モデルの精度を向上させるためのスパース性の使用を示す最初の研究である。
- 参考スコア(独自算出の注目度): 2.9207716326317246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have explored the use of weight sparsity to improve the training
efficiency (test accuracy w.r.t training FLOPs) of deep neural networks (DNNs).
These works aim to reduce training FLOPs but training with sparse weights often
leads to accuracy loss or requires longer train schedules, making the resulting
training efficiency less clear. In contrast, we focus on using sparsity to
increase accuracy while using the same FLOPS as the dense model and show
training efficiency gains through higher accuracy. In this work, we introduce
SIFT, a family of Sparse Iso-FLOP Transformations which are used as drop-in
replacements for dense layers to improve their representational capacity and
FLOP efficiency. Each transformation is parameterized by a single parameter
(sparsity level) and provides a larger search space to find optimal sparse
masks. Without changing any training hyperparameters, replacing dense layers
with SIFT leads to significant improvements across computer vision (CV) and
natural language processing (NLP) tasks, including ResNet-18 on ImageNet
(+3.5%) and GPT-3 Small on WikiText-103 (-0.4 PPL), both matching larger dense
model variants with 2x or more FLOPs. To the best of our knowledge, this is the
first work to demonstrate the use of sparsity for improving accuracy of dense
models via a simple-to-use set of sparse transformations. Code is available at:
https://github.com/CerebrasResearch/SIFT.
- Abstract(参考訳): 近年の研究では、ディープニューラルネットワーク(DNN)のトレーニング効率(テスト精度w.r.tトレーニングFLOPs)を改善するために重量空間の利用について検討されている。
これらの作業はトレーニングのフラップを減らすことを目的としているが、軽度のトレーニングはしばしば精度の低下や長い列車のスケジュールが必要となり、結果として得られる訓練効率が低下する。
対照的に,密度モデルと同じフラップを用いて精度を高めるためにsparsityを使用し,高い精度でトレーニング効率の向上を示すことに着目した。
本稿では,密度層に対するドロップイン置換として用いられる疎isoフロップ変換の族 sift を紹介し,その表現能力とフラップ効率を向上させる。
各変換は単一のパラメータ(スパーシティレベル)でパラメータ化され、最適なスパースマスクを見つけるための大きな探索空間を提供する。
トレーニングハイパーパラメータを変更することなく、高密度層をSIFTに置き換えることによって、コンピュータビジョン(CV)と自然言語処理(NLP)タスク間で大幅に改善され、ImageNet (+3.5%) の ResNet-18 と WikiText-103 (-0.4 PPL) の GPT-3 Small が2倍またはそれ以上のFLOPと一致する。
我々の知る限りでは、これはスパース変換の単純対用セットを通じて高密度モデルの精度を向上させるためのスパース性の使用を示す最初の研究である。
コードは、https://github.com/CerebrasResearch/SIFT.comで入手できる。
関連論文リスト
- Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Weights Augmentation: it has never ever ever ever let her model down [1.5020330976600735]
本稿では,重量増大の概念を,重量探査に焦点をあてて提案する。
ウェイト増強戦略(Weight Augmentation Strategy, WAS)とは、損失関数の計算に使用できるネットワークに対して、ランダムに変換されたウェイト係数のトレーニングと変換を行う手法である。
我々の実験結果は、VGG-16、ResNet-18、ResNet-34、GoogleNet、MobilementV2、Efficientment-Liteといった畳み込みニューラルネットワークが、ほとんど、あるいは全くコストがかからないことを示しています。
論文 参考訳(メタデータ) (2024-05-30T00:57:06Z) - Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like
Speed [42.861344584752]
従来は検出不要であったLoFTRは、大きな視点の変化とテクスチャ・ポーアのシナリオを扱う際、顕著な整合性を示した。
設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。
提案手法は,競争力のあるセミセンス・マーカと比較して高い精度を実現することができる。
論文 参考訳(メタデータ) (2024-03-07T18:58:40Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks [2.6742343015805083]
本稿では,ニューラルネットワーク内に存在する空間の均一分布を探索するグラディエント・アナリング(GA)を提案する。
GAは、余剰を誘導する正規化を必要とせずに、余剰と正確性の間のエレガントなトレードオフを提供する。
GAと最新の学習可能なプルーニング手法を統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成する。
論文 参考訳(メタデータ) (2023-04-14T06:19:07Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。