論文の概要: Parameter Efficient Deep Probabilistic Forecasting
- arxiv url: http://arxiv.org/abs/2112.02905v1
- Date: Mon, 6 Dec 2021 10:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 00:32:43.136498
- Title: Parameter Efficient Deep Probabilistic Forecasting
- Title(参考訳): パラメータ高効率深部確率予測
- Authors: Olivier Sprangers Sebastian Schelter Maarten de Rijke
- Abstract要約: 本稿では,両方向の時間的畳み込みネットワーク(BiTCN)を提案する。
提案手法は,TransformerベースのアプローチとWaveNetを含む4つの最先端確率予測手法と同等に動作する。
提案手法はTransformerベースの手法よりもはるかに少ないパラメータを必要とすることが実証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probabilistic time series forecasting is crucial in many application domains
such as retail, ecommerce, finance, or biology. With the increasing
availability of large volumes of data, a number of neural architectures have
been proposed for this problem. In particular, Transformer-based methods
achieve state-of-the-art performance on real-world benchmarks. However, these
methods require a large number of parameters to be learned, which imposes high
memory requirements on the computational resources for training such models.
To address this problem, we introduce a novel Bidirectional Temporal
Convolutional Network (BiTCN), which requires an order of magnitude less
parameters than a common Transformer-based approach. Our model combines two
Temporal Convolutional Networks (TCNs): the first network encodes future
covariates of the time series, whereas the second network encodes past
observations and covariates. We jointly estimate the parameters of an output
distribution via these two networks.
Experiments on four real-world datasets show that our method performs on par
with four state-of-the-art probabilistic forecasting methods, including a
Transformer-based approach and WaveNet, on two point metrics (sMAPE, NRMSE) as
well as on a set of range metrics (quantile loss percentiles) in the majority
of cases. Secondly, we demonstrate that our method requires significantly less
parameters than Transformer-based methods, which means the model can be trained
faster with significantly lower memory requirements, which as a consequence
reduces the infrastructure cost for deploying these models.
- Abstract(参考訳): 確率的時系列予測は、小売、eコマース、金融、生物学といった多くのアプリケーションドメインにおいて不可欠である。
大量のデータが利用可能になるにつれて、この問題に対して多くのニューラルアーキテクチャが提案されている。
特にTransformerベースの手法は、実世界のベンチマークで最先端のパフォーマンスを実現する。
しかし、これらの手法は学習すべきパラメータを大量に必要とし、そのようなモデルをトレーニングするために計算資源に高いメモリ要件を課している。
そこで本研究では, 一般的なトランスフォーマー方式よりも1桁小さいパラメータを必要とする双方向時相畳み込みネットワーク(bitcn)を提案する。
第1のネットワークは時系列の将来のコ変数を符号化し,第2のネットワークは過去の観測とコ変数を符号化する。
これら2つのネットワークによる出力分布のパラメータを共同で推定する。
実世界の4つのデータセットで実験した結果,TransformerベースのアプローチとWaveNetを含む4つの最先端確率予測手法と,2点のメトリクス(sMAPE, NRMSE)と,ほとんどの場合における範囲のメトリクス(量子損失パーセンタイル)のセットで同等に動作することがわかった。
第2に,本手法はトランスフォーマティブ方式に比べてパラメータが大幅に少ないこと,すなわち,メモリ要求を大幅に削減してモデルを高速にトレーニングできること,その結果,これらのモデルのデプロイに要するインフラストラクチャコストが低減できることを実証する。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Probabilistic MIMO U-Net: Efficient and Accurate Uncertainty Estimation
for Pixel-wise Regression [1.4528189330418977]
機械学習における不確実性推定は、予測モデルの信頼性と解釈可能性を高めるための最重要課題である。
画素ワイド回帰タスクに対するMIMO(Multiple-Input Multiple-Output)フレームワークの適応について述べる。
論文 参考訳(メタデータ) (2023-08-14T22:08:28Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Network insensitivity to parameter noise via adversarial regularization [0.0]
本稿では,学習中にネットワークパラメータを攻撃できる新しい対向的ネットワーク最適化アルゴリズムを提案する。
提案手法は,対象パラメータの変動に対してより堅牢なモデルを生成する。
私たちの研究は、計算非理想性に苦しむデバイスを推論するために、ニューラルネットワークアーキテクチャをデプロイするためのアプローチを提供します。
論文 参考訳(メタデータ) (2021-06-09T12:11:55Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - A Hybrid Objective Function for Robustness of Artificial Neural Networks
-- Estimation of Parameters in a Mechanical System [0.0]
本稿では,加速度プロファイルに基づく機械車両モデルのパラメータ推定の課題について考察する。
未知のパラメータが異なる車両モデル群に対するパラメータを予測できる畳み込みニューラルネットワークアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-04-16T15:06:43Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。