論文の概要: Deconstructing Recurrence, Attention, and Gating: Investigating the transferability of Transformers and Gated Recurrent Neural Networks in forecasting of dynamical systems
- arxiv url: http://arxiv.org/abs/2410.02654v1
- Date: Thu, 3 Oct 2024 16:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 01:42:49.749592
- Title: Deconstructing Recurrence, Attention, and Gating: Investigating the transferability of Transformers and Gated Recurrent Neural Networks in forecasting of dynamical systems
- Title(参考訳): 再帰・注意・ゲーティングのデコンストラクション:動的システムの予測におけるトランスフォーマとゲーテッドリカレントニューラルネットワークの転送可能性の検討
- Authors: Hunter Heidenreich, Pantelis R. Vlachas, etros Koumoutsakos,
- Abstract要約: 我々は、RNNにおけるゲーティングと再発、トランスフォーマーにおける注意機構など、最も強力なニューラルネットワークアーキテクチャの主要なアーキテクチャコンポーネントを分解する。
重要な発見は、ニューラルゲーティングとアテンションは、ほとんどのタスクにおいて標準RNNの正確性を改善する一方で、トランスフォーマーにおける再発の概念の追加は有害である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning architectures, including transformers and recurrent neural networks (RNNs) have revolutionized forecasting in applications ranging from text processing to extreme weather. Notably, advanced network architectures, tuned for applications such as natural language processing, are transferable to other tasks such as spatiotemporal forecasting tasks. However, there is a scarcity of ablation studies to illustrate the key components that enable this forecasting accuracy. The absence of such studies, although explainable due to the associated computational cost, intensifies the belief that these models ought to be considered as black boxes. In this work, we decompose the key architectural components of the most powerful neural architectures, namely gating and recurrence in RNNs, and attention mechanisms in transformers. Then, we synthesize and build novel hybrid architectures from the standard blocks, performing ablation studies to identify which mechanisms are effective for each task. The importance of considering these components as hyper-parameters that can augment the standard architectures is exhibited on various forecasting datasets, from the spatiotemporal chaotic dynamics of the multiscale Lorenz 96 system, the Kuramoto-Sivashinsky equation, as well as standard real world time-series benchmarks. A key finding is that neural gating and attention improves the performance of all standard RNNs in most tasks, while the addition of a notion of recurrence in transformers is detrimental. Furthermore, our study reveals that a novel, sparsely used, architecture which integrates Recurrent Highway Networks with neural gating and attention mechanisms, emerges as the best performing architecture in high-dimensional spatiotemporal forecasting of dynamical systems.
- Abstract(参考訳): トランスフォーマーやリカレントニューラルネットワーク(RNN)を含む機械学習アーキテクチャは、テキスト処理から極端な天候に至るまで、アプリケーションにおける予測に革命をもたらした。
特に、自然言語処理などのアプリケーション用に調整された高度なネットワークアーキテクチャは、時空間予測タスクのような他のタスクに転送可能である。
しかし、この予測精度を実現する重要な要素を説明するためのアブレーション研究は少ない。
このような研究の欠如は、関連する計算コストのために説明可能であるが、これらのモデルがブラックボックスと見なされるべきという信念を強めている。
本研究では、RNNにおけるゲーティングとリカレンス、トランスフォーマーにおけるアテンションメカニズムなど、最も強力なニューラルネットワークアーキテクチャの主要なアーキテクチャコンポーネントを分解する。
そして,標準ブロックから新しいハイブリッドアーキテクチャを合成,構築し,各タスクにどのメカニズムが有効かを特定するアブレーション研究を行う。
マルチスケールロレンツ96系の時空間カオス力学, 倉本-シヴァシンスキー方程式, および標準実時間時系列ベンチマークから, 標準アーキテクチャを拡張可能なハイパーパラメータとして考えることの重要性が, 様々な予測データセットで示された。
重要な発見は、ニューラルゲーティングとアテンションがほとんどのタスクにおける標準RNNの性能を改善する一方で、トランスフォーマーにおける再発の概念の追加は有害であるということである。
さらに本研究では,リカレントハイウェイネットワークとニューラルゲーティングとアテンション機構を統合した新しいアーキテクチャが,動的システムの高次元時空間予測における最高のアーキテクチャとして出現することを明らかにする。
関連論文リスト
- A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures [73.65190161312555]
ARCANAは、混合信号ニューロモルフィック回路の特性を考慮に入れたスパイクニューラルネットワークシミュレータである。
その結果,ソフトウェアでトレーニングしたスパイクニューラルネットワークの挙動を,信頼性の高い推定結果として提示した。
論文 参考訳(メタデータ) (2024-09-23T11:16:46Z) - Systematic construction of continuous-time neural networks for linear dynamical systems [0.0]
本稿では,動的システムのサブクラスをモデル化するためのニューラルネットワーク構築の体系的アプローチについて論じる。
我々は、各ニューロンの出力が1次または2次常微分方程式(ODE)の解として連続的に進化する連続時間ニューラルネットワークの変種を用いる。
データからネットワークアーキテクチャとパラメータを導出する代わりに、所定のLTIシステムから直接スパースアーキテクチャとネットワークパラメータを計算するための勾配のないアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-24T16:16:41Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - An error-propagation spiking neural network compatible with neuromorphic
processors [2.432141667343098]
本稿では,局所的な重み更新機構を用いたバックプロパゲーションを近似したスパイクに基づく学習手法を提案する。
本稿では,重み更新機構による誤り信号のバックプロパゲートを可能にするネットワークアーキテクチャを提案する。
この研究は、超低消費電力混合信号ニューロモルフィック処理系の設計に向けた第一歩である。
論文 参考訳(メタデータ) (2021-04-12T07:21:08Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Action-Conditional Recurrent Kalman Networks For Forward and Inverse
Dynamics Learning [17.80270555749689]
ロボットのモデルベース制御において、正確な前方および逆ダイナミクスモデルの推定が重要な要素である。
本稿では,フォワードモデル学習のためのアーキテクチャと,逆モデル学習のためのアーキテクチャを提案する。
どちらのアーキテクチャも、予測性能の点で、既存のモデル学習フレームワークと分析モデルを大きく上回っている。
論文 参考訳(メタデータ) (2020-10-20T11:28:25Z) - Coupled Oscillatory Recurrent Neural Network (coRNN): An accurate and
(gradient) stable architecture for learning long time dependencies [15.2292571922932]
本稿では,リカレントニューラルネットワークのための新しいアーキテクチャを提案する。
提案するRNNは, 2次常微分方程式系の時間分解に基づく。
実験の結果,提案したRNNは,様々なベンチマークによる最先端技術に匹敵する性能を示した。
論文 参考訳(メタデータ) (2020-10-02T12:35:04Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Industrial Forecasting with Exponentially Smoothed Recurrent Neural
Networks [0.0]
本稿では,産業応用における非定常力学系のモデル化に好適な指数的スムーズなリカレントニューラルネットワーク(RNN)のクラスを提案する。
指数スムーズなRNNの電力負荷、気象データ、株価予測への応用は、多段階時系列予測における隠れ状態の指数スムーズ化の有効性を強調している。
論文 参考訳(メタデータ) (2020-04-09T17:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。