論文の概要: Sparse-IFT: Sparse Iso-FLOP Transformations for Maximizing Training
Efficiency
- arxiv url: http://arxiv.org/abs/2303.11525v3
- Date: Tue, 5 Mar 2024 22:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 18:34:43.591928
- Title: Sparse-IFT: Sparse Iso-FLOP Transformations for Maximizing Training
Efficiency
- Title(参考訳): スパースIFT:訓練効率を最大化するスパースIso-FLOP変換
- Authors: Vithursan Thangarasa, Shreyas Saxena, Abhay Gupta, Sean Lie
- Abstract要約: Sparse Iso-FLOP Transformations (Sparse-IFT) は密度モデルFLOPを維持しながら精度を向上させる。
本研究は,マスクトポロジ,重み,最終性能の相関性について明らかにした。
我々の知る限り、高密度モデルの精度を向上させるためにスパーシティの使用を実証する最初の研究である。
- 参考スコア(独自算出の注目度): 1.4123012502673937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has focused on weight sparsity in neural network training to
reduce FLOPs, aiming for improved efficiency (test accuracy w.r.t training
FLOPs). However, sparse weight training often sacrifices accuracy, requiring
extended training schedules to attain the accuracy of dense models. In
contrast, our approach, Sparse Iso-FLOP Transformations (Sparse-IFT), uses
sparsity to improve accuracy while maintaining dense model FLOPs. Using a
single hyperparameter (i.e., sparsity level), Sparse-IFTs efficiently replace
dense layers, expanding the search space for optimal sparse masks. In addition,
dynamic sparse training with Sparse-IFT models effectively navigates this
larger sparse mask-weight space, which is evidenced by a spectral analysis
using Ramanujan graph properties. Our study reveals a robust correlation among
mask topology, weights, and final performance. Notably, without adjusting
hyperparameters, replacing dense layers with Sparse-IFT yields significant
improvements, such as a +3.5% boost for ResNet-18 on ImageNet and +0.9% for
GPT-3 Small on the Open LLM leaderboard. To our knowledge, this is the first
work to demonstrate the use of sparsity for improving the accuracy of dense
models through a simple-to-use set of sparse transformations. Code is available
at: https://github.com/CerebrasResearch/Sparse-IFT.
- Abstract(参考訳): 近年の研究では、FLOPの削減を目的としたニューラルネットワークトレーニングにおける重量の分散に焦点を当てている。
しかし、スパースウェイトトレーニングはしばしば精度を犠牲にし、より密集したモデルの精度を達成するために訓練スケジュールを延長する必要がある。
対照的に、Sparse Iso-FLOP Transformations (Sparse-IFT) は密度モデルFLOPを維持しながら精度を向上させる。
単一のハイパーパラメータ(すなわちスパースレベル)を使用して、スパースiftは密集層を効率的に置き換え、最適なスパースマスクの探索空間を広げる。
さらに、スパース-IFTモデルを用いた動的スパーストレーニングは、ラマヌジャングラフ特性を用いたスペクトル解析によって証明されたこの大きなスパースマスク重み空間を効果的にナビゲートする。
本研究は,マスクトポロジ,重み,最終性能の相関関係を明らかにする。
特に、ハイパーパラメータを調整することなく、Sparse-IFTで高密度層を置き換えると、ImageNetでResNet-18が+3.5%、Open LLMのリーダーボードで+0.9%向上する。
我々の知る限り、これはスパース変換の簡単な集合を通して密度モデルの精度を向上させるためにスパース性を利用する最初の研究である。
コードはhttps://github.com/cerebrasresearch/sparse-ift。
関連論文リスト
- Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like
Speed [42.861344584752]
従来は検出不要であったLoFTRは、大きな視点の変化とテクスチャ・ポーアのシナリオを扱う際、顕著な整合性を示した。
設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。
提案手法は,競争力のあるセミセンス・マーカと比較して高い精度を実現することができる。
論文 参考訳(メタデータ) (2024-03-07T18:58:40Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing
Activation Density in Transformers [58.66678571605656]
そこで本研究では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法の有効性を,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて実証する。
提案手法であるDEFTは,RoBERTa$_mathrmLarge上での活性化密度を一定に低減し,最大$boldsymbol50.72%まで低減できることを示す。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Adaptive Sparsity Level during Training for Efficient Time Series
Forecasting with Transformers [8.99827064269123]
我々はtextbfAdaptive textbfSparsity textbfLevel (textbfPALS) を用いたtextbfPruning を提案する。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z) - AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks [2.6742343015805083]
本稿では,ニューラルネットワーク内に存在する空間の均一分布を探索するグラディエント・アナリング(GA)を提案する。
GAは、余剰を誘導する正規化を必要とせずに、余剰と正確性の間のエレガントなトレードオフを提供する。
GAと最新の学習可能なプルーニング手法を統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成する。
論文 参考訳(メタデータ) (2023-04-14T06:19:07Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。