Fugu-MT 論文翻訳(概要): Sparse-IFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency

論文の概要: Sparse-IFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency

arxiv url: http://arxiv.org/abs/2303.11525v3
Date: Tue, 5 Mar 2024 22:12:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 18:34:43.591928
Title: Sparse-IFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency
Title（参考訳）: スパースIFT:訓練効率を最大化するスパースIso-FLOP変換
Authors: Vithursan Thangarasa, Shreyas Saxena, Abhay Gupta, Sean Lie
Abstract要約: Sparse Iso-FLOP Transformations (Sparse-IFT) は密度モデルFLOPを維持しながら精度を向上させる。本研究は,マスクトポロジ,重み,最終性能の相関性について明らかにした。我々の知る限り、高密度モデルの精度を向上させるためにスパーシティの使用を実証する最初の研究である。
参考スコア（独自算出の注目度）: 1.4123012502673937
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research has focused on weight sparsity in neural network training to reduce FLOPs, aiming for improved efficiency (test accuracy w.r.t training FLOPs). However, sparse weight training often sacrifices accuracy, requiring extended training schedules to attain the accuracy of dense models. In contrast, our approach, Sparse Iso-FLOP Transformations (Sparse-IFT), uses sparsity to improve accuracy while maintaining dense model FLOPs. Using a single hyperparameter (i.e., sparsity level), Sparse-IFTs efficiently replace dense layers, expanding the search space for optimal sparse masks. In addition, dynamic sparse training with Sparse-IFT models effectively navigates this larger sparse mask-weight space, which is evidenced by a spectral analysis using Ramanujan graph properties. Our study reveals a robust correlation among mask topology, weights, and final performance. Notably, without adjusting hyperparameters, replacing dense layers with Sparse-IFT yields significant improvements, such as a +3.5% boost for ResNet-18 on ImageNet and +0.9% for GPT-3 Small on the Open LLM leaderboard. To our knowledge, this is the first work to demonstrate the use of sparsity for improving the accuracy of dense models through a simple-to-use set of sparse transformations. Code is available at: https://github.com/CerebrasResearch/Sparse-IFT.
Abstract（参考訳）: 近年の研究では、FLOPの削減を目的としたニューラルネットワークトレーニングにおける重量の分散に焦点を当てている。しかし、スパースウェイトトレーニングはしばしば精度を犠牲にし、より密集したモデルの精度を達成するために訓練スケジュールを延長する必要がある。対照的に、Sparse Iso-FLOP Transformations (Sparse-IFT) は密度モデルFLOPを維持しながら精度を向上させる。単一のハイパーパラメータ(すなわちスパースレベル)を使用して、スパースiftは密集層を効率的に置き換え、最適なスパースマスクの探索空間を広げる。さらに、スパース-IFTモデルを用いた動的スパーストレーニングは、ラマヌジャングラフ特性を用いたスペクトル解析によって証明されたこの大きなスパースマスク重み空間を効果的にナビゲートする。本研究は,マスクトポロジ,重み,最終性能の相関関係を明らかにする。特に、ハイパーパラメータを調整することなく、Sparse-IFTで高密度層を置き換えると、ImageNetでResNet-18が+3.5%、Open LLMのリーダーボードで+0.9%向上する。我々の知る限り、これはスパース変換の簡単な集合を通して密度モデルの精度を向上させるためにスパース性を利用する最初の研究である。コードはhttps://github.com/cerebrasresearch/sparse-ift。

関連論文リスト

Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文参考訳（メタデータ） (2024-07-13T10:08:55Z)
Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文参考訳（メタデータ） (2024-06-17T12:24:45Z)
Weights Augmentation: it has never ever ever ever let her model down [1.5020330976600735]
本稿では,重量増大の概念を,重量探査に焦点をあてて提案する。ウェイト増強戦略(Weight Augmentation Strategy, WAS)とは、損失関数の計算に使用できるネットワークに対して、ランダムに変換されたウェイト係数のトレーニングと変換を行う手法である。我々の実験結果は、VGG-16、ResNet-18、ResNet-34、GoogleNet、MobilementV2、Efficientment-Liteといった畳み込みニューラルネットワークが、ほとんど、あるいは全くコストがかからないことを示しています。
論文参考訳（メタデータ） (2024-05-30T00:57:06Z)
Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like Speed [42.861344584752]
従来は検出不要であったLoFTRは、大きな視点の変化とテクスチャ・ポーアのシナリオを扱う際、顕著な整合性を示した。設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。提案手法は,競争力のあるセミセンス・マーカと比較して高い精度を実現することができる。
論文参考訳（メタデータ） (2024-03-07T18:58:40Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
Filter Pruning for Efficient CNNs via Knowledge-driven Differential Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文参考訳（メタデータ） (2023-07-01T02:28:41Z)
AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks [2.6742343015805083]
本稿では,ニューラルネットワーク内に存在する空間の均一分布を探索するグラディエント・アナリング(GA)を提案する。 GAは、余剰を誘導する正規化を必要とせずに、余剰と正確性の間のエレガントなトレードオフを提供する。 GAと最新の学習可能なプルーニング手法を統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成する。
論文参考訳（メタデータ） (2023-04-14T06:19:07Z)
A Fast and Efficient Conditional Learning for Tunable Trade-Off between Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文参考訳（メタデータ） (2022-03-28T19:25:36Z)
Federated Dynamic Sparse Training: Computing Less, Communicating Less, Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。 FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文参考訳（メタデータ） (2021-12-18T02:26:38Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。