論文の概要: Parallelizing non-linear sequential models over the sequence length
- arxiv url: http://arxiv.org/abs/2309.12252v3
- Date: Tue, 16 Jan 2024 16:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 20:36:10.076031
- Title: Parallelizing non-linear sequential models over the sequence length
- Title(参考訳): 列長上の非線形シーケンシャルモデルの並列化
- Authors: Yi Heng Lim, Qi Zhu, Joshua Selfridge, Muhammad Firmansyah Kasim
- Abstract要約: 我々は,逐次モデルのGPU評価を最大3桁高速化する並列アルゴリズムを開発した。
17k時間サンプルを用いた長期連続分類問題において, Gated Recurrent Unit の有効性について検討した。
- 参考スコア(独自算出の注目度): 7.99707131886133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential models, such as Recurrent Neural Networks and Neural Ordinary
Differential Equations, have long suffered from slow training due to their
inherent sequential nature. For many years this bottleneck has persisted, as
many thought sequential models could not be parallelized. We challenge this
long-held belief with our parallel algorithm that accelerates GPU evaluation of
sequential models by up to 3 orders of magnitude faster without compromising
output accuracy. The algorithm does not need any special structure in the
sequential models' architecture, making it applicable to a wide range of
architectures. Using our method, training sequential models can be more than 10
times faster than the common sequential method without any meaningful
difference in the training results. Leveraging this accelerated training, we
discovered the efficacy of the Gated Recurrent Unit in a long time series
classification problem with 17k time samples. By overcoming the training
bottleneck, our work serves as the first step to unlock the potential of
non-linear sequential models for long sequence problems.
- Abstract(参考訳): リカレントニューラルネットワークや神経常微分方程式といったシーケンシャルモデルでは、本質的にシーケンシャルな性質のため、トレーニングが遅かった。
多くの考慮されたシーケンシャルモデルが並列化できないため、長年にわたってこのボトルネックは続いている。
我々は、出力精度を損なうことなく、逐次モデルのGPU評価を最大3桁高速化する並列アルゴリズムによるこの長年の信念に挑戦する。
このアルゴリズムはシーケンシャルモデルのアーキテクチャに特別な構造は必要とせず、幅広いアーキテクチャに適用できる。
本手法では,学習結果に有意な差を生じさせることなく,一般的な逐次法よりも10倍以上高速に学習できる。
この高速化トレーニングを利用して、17k時間サンプルを用いた長期連続分類問題においてGated Recurrent Unitの有効性を発見した。
学習のボトルネックを克服することで、我々の研究は、長い系列問題に対する非線形シーケンシャルモデルのポテンシャルを解き放つための第一歩となる。
関連論文リスト
- State Soup: In-Context Skill Learning, Retrieval and Mixing [22.485700977542127]
新しいタイプのゲート線形リカレントニューラルネットワークは、様々なシーケンスモデリング問題に対して最先端の性能に達した。
ここでは、パラメータによるモデルマージの成功に触発された、ステートフルシーケンスモデルの別の利点について検討する。
微調整学習と文脈内学習の並列性に基づいて、内部状態を記憶、検索、線形結合が可能なタスクベクトルとして扱うことができるかどうかを検討する。
論文 参考訳(メタデータ) (2024-06-12T17:06:07Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Latent Neural ODEs with Sparse Bayesian Multiple Shooting [13.104556034767025]
長い軌道上でのニューラルODEなどの動的モデルのトレーニングは、モデルトレーニングを実際に動作させるためには、軌道分割のような様々なトリックを使用する必要がある難しい問題である。
本稿では,並列に最適化されたトラジェクトリを管理可能なショートセグメントに分割する,ニューラルネットワークの多射法を提案する。
複数の大規模ベンチマークデータセット上で、効率的で安定したトレーニングと最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-10-07T11:36:29Z) - Grasping Core Rules of Time Series through Pure Models [6.849905754473385]
PureTSは3つの純粋な線形層を持つネットワークであり、長いシーケンス予測タスクの80%で最先端を達成した。
本稿では, 純粋な線形層の可能性について考察する。
論文 参考訳(メタデータ) (2022-08-15T10:22:15Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - Oscillatory Fourier Neural Network: A Compact and Efficient Architecture
for Sequential Processing [16.69710555668727]
本稿では,コサイン活性化と時系列処理のための時間変化成分を有する新しいニューロンモデルを提案する。
提案したニューロンは、スペクトル領域に逐次入力を投影するための効率的なビルディングブロックを提供する。
IMDBデータセットの感情分析に提案されたモデルを適用すると、5時間以内のテスト精度は89.4%に達する。
論文 参考訳(メタデータ) (2021-09-14T19:08:07Z) - Learning from Irregularly-Sampled Time Series: A Missing Data
Perspective [18.493394650508044]
不規則にサンプリングされた時系列は、医療を含む多くの領域で発生する。
連続だが観測されていない関数からサンプリングされた指数値対の列として、不規則にサンプリングされた時系列データをモデル化する。
本稿では,変分オートエンコーダと生成対向ネットワークに基づく学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-17T20:01:55Z) - STEER: Simple Temporal Regularization For Neural ODEs [80.80350769936383]
トレーニング中のODEの終了時刻をランダムにサンプリングする新しい正規化手法を提案する。
提案された正規化は実装が簡単で、オーバーヘッドを無視でき、様々なタスクで有効である。
本稿では,フローの正規化,時系列モデル,画像認識などの実験を通じて,提案した正規化がトレーニング時間を大幅に短縮し,ベースラインモデルよりも性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-06-18T17:44:50Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。