Fugu-MT 論文翻訳(概要): Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers

論文の概要: Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers

arxiv url: http://arxiv.org/abs/2305.18382v1
Date: Sun, 28 May 2023 06:57:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 21:51:30.467251
Title: Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers
Title（参考訳）: 変圧器を用いた効率的な時系列予測のための訓練中の適応的スパーシリティレベル
Authors: Zahra Atashgahi, Mykola Pechenizkiy, Raymond Veldhuis, Decebal Constantin Mocanu
Abstract要約: 我々はtextbfAdaptive textbfSparsity textbfLevel (textbfPALS) を用いたtextbfPruning を提案する。
参考スコア（独自算出の注目度）: 8.99827064269123
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Efficient time series forecasting has become critical for real-world applications, particularly with deep neural networks (DNNs). Efficiency in DNNs can be achieved through sparse connectivity and reducing the model size. However, finding the sparsity level automatically during training remains a challenging task due to the heterogeneity in the loss-sparsity tradeoffs across the datasets. In this paper, we propose \enquote{\textbf{P}runing with \textbf{A}daptive \textbf{S}parsity \textbf{L}evel} (\textbf{PALS}), to automatically seek an optimal balance between loss and sparsity, all without the need for a predefined sparsity level. PALS draws inspiration from both sparse training and during-training methods. It introduces the novel "expand" mechanism in training sparse neural networks, allowing the model to dynamically shrink, expand, or remain stable to find a proper sparsity level. In this paper, we focus on achieving efficiency in transformers known for their excellent time series forecasting performance but high computational cost. Nevertheless, PALS can be applied directly to any DNN. In the scope of these arguments, we demonstrate its effectiveness also on the DLinear model. Experimental results on six benchmark datasets and five state-of-the-art transformer variants show that PALS substantially reduces model size while maintaining comparable performance to the dense model. More interestingly, PALS even outperforms the dense model, in 12 and 14 cases out of 30 cases in terms of MSE and MAE loss, respectively, while reducing 65% parameter count and 63% FLOPs on average. Our code will be publicly available upon acceptance of the paper.
Abstract（参考訳）: リアルタイムアプリケーション、特にディープニューラルネットワーク(DNN)では、効率的な時系列予測が重要になっている。 DNNの効率性は、疎結合とモデルサイズの削減によって達成できる。しかしながら、トレーニング中に自動的にスパーシリティレベルを見つけることは、データセット間のロススパーシティトレードオフの不均一性のため、依然として難しい課題である。本稿では,事前定義されたスパーシリティレベルを必要とせず,損失とスパーシリティの最適なバランスを求めるために, \textbf{a}daptive \textbf{s}parsity \textbf{l}evel} (\textbf{pals}) による\enquote{\textbf{p}runingを提案する。 PALSはスパーストレーニングとインターントレーニングの両方からインスピレーションを得ている。スパースニューラルネットワークのトレーニングにおいて、新しい"expand"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して、適切なスパース性レベルを見つけることができる。本稿では,その優れた時系列予測性能と計算コストで知られている変圧器の効率向上に着目する。それでも、PALSは任意のDNNに直接適用することができる。これらの議論の範囲では、DLinearモデルにもその効果が示される。 6つのベンチマークデータセットと5つの最先端トランスフォーマーによる実験結果から,PALSは高密度モデルに匹敵する性能を維持しながら,モデルサイズを大幅に削減することが示された。さらに興味深いことに、PALSは、MSEとMAEの損失でそれぞれ30例中12例と14例において、密度モデルよりも優れており、パラメータ数が65%、FLOPが63%減少している。私たちのコードは、論文の受理時に公開されます。

関連論文リスト

Communication-Efficient Wireless Federated Fine-Tuning for Large-Scale AI Models [13.742950928229078]
Low-Rank Adaptation (LoRA) は、完全に微調整された大型モデルではなく、コンパクトで低ランクな行列を訓練することでこれらの問題に対処する。本稿では,学習性能と通信効率の両方を最適化する無線フェデレーションLoRAファインチューニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-01T06:15:38Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Improved Training Technique for Latent Consistency Models [18.617862678160243]
一貫性モデルは、単一のステップまたは複数のステップで高品質なサンプルを生成することができる。画素空間と潜伏空間の統計的差異を解析し、潜伏データがしばしば非常にインパルス的な外れ値を含むことを発見した。我々は,早期に拡散損失を導入し,さらに性能を高めるために最適な輸送(OT)結合を用いる。
論文参考訳（メタデータ） (2025-02-03T15:25:58Z)
Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文参考訳（メタデータ） (2024-07-13T10:08:55Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。 Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文参考訳（メタデータ） (2024-06-11T15:01:20Z)
DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training [87.90342423839876]
我々は,PDEデータに対するより安定的で効率的な事前学習を可能にする,自己回帰型事前学習戦略を提案する。我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。
論文参考訳（メタデータ） (2024-03-06T08:38:34Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
Multicoated and Folded Graph Neural Networks with Strong Lottery Tickets [3.0894823679470087]
本稿では,アーキテクチャとパラメータの両面から検索空間を拡張するためのマルチステージ・フォールディング法とアンシャレッド・マスク法を提案する。高空間性、競争性能、高メモリ効率を最大98.7%の削減で達成することにより、エネルギー効率の高いグラフ処理に適していることを示す。
論文参考訳（メタデータ） (2023-12-06T02:16:44Z)
FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文参考訳（メタデータ） (2023-09-13T08:51:19Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Phantom Embeddings: Using Embedding Space for Model Regularization in Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-14T17:15:54Z)
LCS: Learning Compressible Subspaces for Adaptive Network Compression at Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文参考訳（メタデータ） (2021-10-08T17:03:34Z)
Stochastic Transformer Networks with Linear Competing Units: Application to end-to-end SL Translation [46.733644368276764]
グロースの明示的な使用を伴わないエンドツーエンドのSLTモデルを提案する。これは、Gloss sequence groundtruthを使用する既存のエンドツーエンドモデルとは対照的である。提案手法は,ENIX 2014Tベンチマークにおいて,現在報告されているBLEU-4スコアに到達可能であることを示す。
論文参考訳（メタデータ） (2021-09-01T15:00:52Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。