論文の概要: Adaptive Sparsity Level during Training for Efficient Time Series
Forecasting with Transformers
- arxiv url: http://arxiv.org/abs/2305.18382v1
- Date: Sun, 28 May 2023 06:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:51:30.467251
- Title: Adaptive Sparsity Level during Training for Efficient Time Series
Forecasting with Transformers
- Title(参考訳): 変圧器を用いた効率的な時系列予測のための訓練中の適応的スパーシリティレベル
- Authors: Zahra Atashgahi, Mykola Pechenizkiy, Raymond Veldhuis, Decebal
Constantin Mocanu
- Abstract要約: 我々はtextbfAdaptive textbfSparsity textbfLevel (textbfPALS) を用いたtextbfPruning を提案する。
- 参考スコア(独自算出の注目度): 8.99827064269123
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Efficient time series forecasting has become critical for real-world
applications, particularly with deep neural networks (DNNs). Efficiency in DNNs
can be achieved through sparse connectivity and reducing the model size.
However, finding the sparsity level automatically during training remains a
challenging task due to the heterogeneity in the loss-sparsity tradeoffs across
the datasets. In this paper, we propose \enquote{\textbf{P}runing with
\textbf{A}daptive \textbf{S}parsity \textbf{L}evel} (\textbf{PALS}), to
automatically seek an optimal balance between loss and sparsity, all without
the need for a predefined sparsity level. PALS draws inspiration from both
sparse training and during-training methods. It introduces the novel "expand"
mechanism in training sparse neural networks, allowing the model to dynamically
shrink, expand, or remain stable to find a proper sparsity level. In this
paper, we focus on achieving efficiency in transformers known for their
excellent time series forecasting performance but high computational cost.
Nevertheless, PALS can be applied directly to any DNN. In the scope of these
arguments, we demonstrate its effectiveness also on the DLinear model.
Experimental results on six benchmark datasets and five state-of-the-art
transformer variants show that PALS substantially reduces model size while
maintaining comparable performance to the dense model. More interestingly, PALS
even outperforms the dense model, in 12 and 14 cases out of 30 cases in terms
of MSE and MAE loss, respectively, while reducing 65% parameter count and 63%
FLOPs on average. Our code will be publicly available upon acceptance of the
paper.
- Abstract(参考訳): リアルタイムアプリケーション、特にディープニューラルネットワーク(DNN)では、効率的な時系列予測が重要になっている。
DNNの効率性は、疎結合とモデルサイズの削減によって達成できる。
しかしながら、トレーニング中に自動的にスパーシリティレベルを見つけることは、データセット間のロススパーシティトレードオフの不均一性のため、依然として難しい課題である。
本稿では,事前定義されたスパーシリティレベルを必要とせず,損失とスパーシリティの最適なバランスを求めるために, \textbf{a}daptive \textbf{s}parsity \textbf{l}evel} (\textbf{pals}) による\enquote{\textbf{p}runingを提案する。
PALSはスパーストレーニングとインターントレーニングの両方からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"expand"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して、適切なスパース性レベルを見つけることができる。
本稿では,その優れた時系列予測性能と計算コストで知られている変圧器の効率向上に着目する。
それでも、PALSは任意のDNNに直接適用することができる。
これらの議論の範囲では、DLinearモデルにもその効果が示される。
6つのベンチマークデータセットと5つの最先端トランスフォーマーによる実験結果から,PALSは高密度モデルに匹敵する性能を維持しながら,モデルサイズを大幅に削減することが示された。
さらに興味深いことに、PALSは、MSEとMAEの損失でそれぞれ30例中12例と14例において、密度モデルよりも優れており、パラメータ数が65%、FLOPが63%減少している。
私たちのコードは、論文の受理時に公開されます。
関連論文リスト
- Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - Multicoated and Folded Graph Neural Networks with Strong Lottery Tickets [3.0894823679470087]
本稿では,アーキテクチャとパラメータの両面から検索空間を拡張するためのマルチステージ・フォールディング法とアンシャレッド・マスク法を提案する。
高空間性、競争性能、高メモリ効率を最大98.7%の削減で達成することにより、エネルギー効率の高いグラフ処理に適していることを示す。
論文 参考訳(メタデータ) (2023-12-06T02:16:44Z) - FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Stochastic Transformer Networks with Linear Competing Units: Application
to end-to-end SL Translation [46.733644368276764]
グロースの明示的な使用を伴わないエンドツーエンドのSLTモデルを提案する。
これは、Gloss sequence groundtruthを使用する既存のエンドツーエンドモデルとは対照的である。
提案手法は,ENIX 2014Tベンチマークにおいて,現在報告されているBLEU-4スコアに到達可能であることを示す。
論文 参考訳(メタデータ) (2021-09-01T15:00:52Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。