論文の概要: Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers
- arxiv url: http://arxiv.org/abs/2305.18382v2
- Date: Wed, 12 Jun 2024 08:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 01:42:49.758143
- Title: Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers
- Title(参考訳): 変圧器を用いた効率的な時系列予測のための訓練中の適応的スパーシリティレベル
- Authors: Zahra Atashgahi, Mykola Pechenizkiy, Raymond Veldhuis, Decebal Constantin Mocanu,
- Abstract要約: textbfAdaptive textbfSparsity textbfPALS(textbfPALS)を提案する。
PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
- 参考スコア(独自算出の注目度): 20.23085795744602
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Efficient time series forecasting has become critical for real-world applications, particularly with deep neural networks (DNNs). Efficiency in DNNs can be achieved through sparse connectivity and reducing the model size. However, finding the sparsity level automatically during training remains challenging due to the heterogeneity in the loss-sparsity tradeoffs across the datasets. In this paper, we propose \enquote{\textbf{P}runing with \textbf{A}daptive \textbf{S}parsity \textbf{L}evel} (\textbf{PALS}), to automatically seek a decent balance between loss and sparsity, all without the need for a predefined sparsity level. PALS draws inspiration from sparse training and during-training methods. It introduces the novel "expand" mechanism in training sparse neural networks, allowing the model to dynamically shrink, expand, or remain stable to find a proper sparsity level. In this paper, we focus on achieving efficiency in transformers known for their excellent time series forecasting performance but high computational cost. Nevertheless, PALS can be applied directly to any DNN. To this aim, we demonstrate its effectiveness also on the DLinear model. Experimental results on six benchmark datasets and five state-of-the-art (SOTA) transformer variants show that PALS substantially reduces model size while maintaining comparable performance to the dense model. More interestingly, PALS even outperforms the dense model, in \textcolor{blue}{12} and \textcolor{blue}{14} cases out of 30 cases in terms of MSE and MAE loss, respectively, while reducing \textcolor{blue}{65\%} parameter count and \textcolor{blue}{63\%} FLOPs on average. Our code and supplementary material are available on Github\footnote{\tiny \url{https://github.com/zahraatashgahi/PALS}}.
- Abstract(参考訳): リアルタイムアプリケーション、特にディープニューラルネットワーク(DNN)では、効率的な時系列予測が重要になっている。
DNNの効率性は、スパース接続とモデルサイズの削減によって達成できる。
しかし、データセット間のロススパーシティトレードオフの不均一性のため、トレーニング中に自動的にスパーシティレベルを見つけることは依然として困難である。
本稿では,所定間隔レベルを必要とせずに,損失と空間のバランスを自動的に求めるために,<enquote{\textbf{P}runing with \textbf{A}daptive \textbf{S}parsity \textbf{L}evel} (\textbf{PALS})を提案する。
PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
本稿では,優れた時系列予測性能と高い計算コストで知られている変圧器の効率性の実現に焦点をあてる。
それでも、PALSは任意のDNNに直接適用することができる。
本研究の目的は,DLinearモデルにおいても有効性を示すことである。
6つのベンチマークデータセットと5つのSOTA(State-of-the-art)トランスフォーマーによる実験結果から,PALSは高密度モデルに匹敵する性能を維持しながら,モデルサイズを大幅に削減することが示された。
さらに興味深いことに、PALS は密度モデルよりも優れており、MSE と MAE の損失でそれぞれ 30 のケースで \textcolor{blue}{12} と \textcolor{blue}{63\%} の FLOP を平均で減らし、それぞれ MSE と MAE の損失で 30 のケースで \textcolor{blue}{12} と \textcolor{blue}{14} のケースで FLOP を減らしている。
私たちのコードと補足資料はGithub\footnote{\tiny \url{https://github.com/zahraatashgahi/PALS}}で公開されています。
関連論文リスト
- Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - Multicoated and Folded Graph Neural Networks with Strong Lottery Tickets [3.0894823679470087]
本稿では,アーキテクチャとパラメータの両面から検索空間を拡張するためのマルチステージ・フォールディング法とアンシャレッド・マスク法を提案する。
高空間性、競争性能、高メモリ効率を最大98.7%の削減で達成することにより、エネルギー効率の高いグラフ処理に適していることを示す。
論文 参考訳(メタデータ) (2023-12-06T02:16:44Z) - FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Stochastic Transformer Networks with Linear Competing Units: Application
to end-to-end SL Translation [46.733644368276764]
グロースの明示的な使用を伴わないエンドツーエンドのSLTモデルを提案する。
これは、Gloss sequence groundtruthを使用する既存のエンドツーエンドモデルとは対照的である。
提案手法は,ENIX 2014Tベンチマークにおいて,現在報告されているBLEU-4スコアに到達可能であることを示す。
論文 参考訳(メタデータ) (2021-09-01T15:00:52Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。