論文の概要: Adaptive Sparsity Level during Training for Efficient Time Series
Forecasting with Transformers
- arxiv url: http://arxiv.org/abs/2305.18382v1
- Date: Sun, 28 May 2023 06:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:51:30.467251
- Title: Adaptive Sparsity Level during Training for Efficient Time Series
Forecasting with Transformers
- Title(参考訳): 変圧器を用いた効率的な時系列予測のための訓練中の適応的スパーシリティレベル
- Authors: Zahra Atashgahi, Mykola Pechenizkiy, Raymond Veldhuis, Decebal
Constantin Mocanu
- Abstract要約: 我々はtextbfAdaptive textbfSparsity textbfLevel (textbfPALS) を用いたtextbfPruning を提案する。
- 参考スコア(独自算出の注目度): 8.99827064269123
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Efficient time series forecasting has become critical for real-world
applications, particularly with deep neural networks (DNNs). Efficiency in DNNs
can be achieved through sparse connectivity and reducing the model size.
However, finding the sparsity level automatically during training remains a
challenging task due to the heterogeneity in the loss-sparsity tradeoffs across
the datasets. In this paper, we propose \enquote{\textbf{P}runing with
\textbf{A}daptive \textbf{S}parsity \textbf{L}evel} (\textbf{PALS}), to
automatically seek an optimal balance between loss and sparsity, all without
the need for a predefined sparsity level. PALS draws inspiration from both
sparse training and during-training methods. It introduces the novel "expand"
mechanism in training sparse neural networks, allowing the model to dynamically
shrink, expand, or remain stable to find a proper sparsity level. In this
paper, we focus on achieving efficiency in transformers known for their
excellent time series forecasting performance but high computational cost.
Nevertheless, PALS can be applied directly to any DNN. In the scope of these
arguments, we demonstrate its effectiveness also on the DLinear model.
Experimental results on six benchmark datasets and five state-of-the-art
transformer variants show that PALS substantially reduces model size while
maintaining comparable performance to the dense model. More interestingly, PALS
even outperforms the dense model, in 12 and 14 cases out of 30 cases in terms
of MSE and MAE loss, respectively, while reducing 65% parameter count and 63%
FLOPs on average. Our code will be publicly available upon acceptance of the
paper.
- Abstract(参考訳): リアルタイムアプリケーション、特にディープニューラルネットワーク(DNN)では、効率的な時系列予測が重要になっている。
DNNの効率性は、疎結合とモデルサイズの削減によって達成できる。
しかしながら、トレーニング中に自動的にスパーシリティレベルを見つけることは、データセット間のロススパーシティトレードオフの不均一性のため、依然として難しい課題である。
本稿では,事前定義されたスパーシリティレベルを必要とせず,損失とスパーシリティの最適なバランスを求めるために, \textbf{a}daptive \textbf{s}parsity \textbf{l}evel} (\textbf{pals}) による\enquote{\textbf{p}runingを提案する。
PALSはスパーストレーニングとインターントレーニングの両方からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"expand"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して、適切なスパース性レベルを見つけることができる。
本稿では,その優れた時系列予測性能と計算コストで知られている変圧器の効率向上に着目する。
それでも、PALSは任意のDNNに直接適用することができる。
これらの議論の範囲では、DLinearモデルにもその効果が示される。
6つのベンチマークデータセットと5つの最先端トランスフォーマーによる実験結果から,PALSは高密度モデルに匹敵する性能を維持しながら,モデルサイズを大幅に削減することが示された。
さらに興味深いことに、PALSは、MSEとMAEの損失でそれぞれ30例中12例と14例において、密度モデルよりも優れており、パラメータ数が65%、FLOPが63%減少している。
私たちのコードは、論文の受理時に公開されます。
関連論文リスト
- Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer
Learning for Point Cloud Analysis [53.70588957376317]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Do deep neural networks utilize the weight space efficiently? [2.9914612342004503]
TransformersやConvolutional Neural Networks(CNN)といったディープラーニングモデルは、さまざまなドメインに革命をもたらしたが、パラメータ集約的な自然ハマーをリソース制約された設定に配置する。
重み行列の列空間と行空間を利用する新しい概念を導入し、性能を損なうことなくモデルパラメータを大幅に削減する。
私たちのアプローチはBottleneck層とAttention層の両方に適用され、パラメータを効果的に半分にします。
論文 参考訳(メタデータ) (2024-01-26T21:51:49Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - Compact Multi-level Sparse Neural Networks with Input Independent
Dynamic Rerouting [33.35713740886292]
疎いディープニューラルネットワークは、モデルの複雑さとメモリ消費を大幅に減らすことができる。
現実の課題に直面する中で,複数のスパースレベルをサポートするスパースモデルをトレーニングすることを提案する。
このようにして、推論中に適切なスパーシティレベルを動的に選択でき、ストレージコストを最小のスパースサブモデルで抑えることができる。
論文 参考訳(メタデータ) (2021-12-21T01:35:51Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Mitigating severe over-parameterization in deep convolutional neural
networks through forced feature abstraction and compression with an
entropy-based heuristic [7.503338065129185]
本稿では,エントロピーに基づく畳み込み層推定(EBCLE)を提案する。
EBCLEを用いて訓練したより広いが浅いモデルの相対的有効性を強調する実証的証拠を提示する。
論文 参考訳(メタデータ) (2021-06-27T10:34:39Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。