Fugu-MT 論文翻訳(概要): Parallelizing non-linear sequential models over the sequence length

論文の概要: Parallelizing non-linear sequential models over the sequence length

arxiv url: http://arxiv.org/abs/2309.12252v3
Date: Tue, 16 Jan 2024 16:56:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 20:36:10.076031
Title: Parallelizing non-linear sequential models over the sequence length
Title（参考訳）: 列長上の非線形シーケンシャルモデルの並列化
Authors: Yi Heng Lim, Qi Zhu, Joshua Selfridge, Muhammad Firmansyah Kasim
Abstract要約: 我々は,逐次モデルのGPU評価を最大3桁高速化する並列アルゴリズムを開発した。 17k時間サンプルを用いた長期連続分類問題において, Gated Recurrent Unit の有効性について検討した。
参考スコア（独自算出の注目度）: 7.99707131886133
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sequential models, such as Recurrent Neural Networks and Neural Ordinary Differential Equations, have long suffered from slow training due to their inherent sequential nature. For many years this bottleneck has persisted, as many thought sequential models could not be parallelized. We challenge this long-held belief with our parallel algorithm that accelerates GPU evaluation of sequential models by up to 3 orders of magnitude faster without compromising output accuracy. The algorithm does not need any special structure in the sequential models' architecture, making it applicable to a wide range of architectures. Using our method, training sequential models can be more than 10 times faster than the common sequential method without any meaningful difference in the training results. Leveraging this accelerated training, we discovered the efficacy of the Gated Recurrent Unit in a long time series classification problem with 17k time samples. By overcoming the training bottleneck, our work serves as the first step to unlock the potential of non-linear sequential models for long sequence problems.
Abstract（参考訳）: リカレントニューラルネットワークや神経常微分方程式といったシーケンシャルモデルでは、本質的にシーケンシャルな性質のため、トレーニングが遅かった。多くの考慮されたシーケンシャルモデルが並列化できないため、長年にわたってこのボトルネックは続いている。我々は、出力精度を損なうことなく、逐次モデルのGPU評価を最大3桁高速化する並列アルゴリズムによるこの長年の信念に挑戦する。このアルゴリズムはシーケンシャルモデルのアーキテクチャに特別な構造は必要とせず、幅広いアーキテクチャに適用できる。本手法では,学習結果に有意な差を生じさせることなく,一般的な逐次法よりも10倍以上高速に学習できる。この高速化トレーニングを利用して、17k時間サンプルを用いた長期連続分類問題においてGated Recurrent Unitの有効性を発見した。学習のボトルネックを克服することで、我々の研究は、長い系列問題に対する非線形シーケンシャルモデルのポテンシャルを解き放つための第一歩となる。

関連論文リスト

Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文参考訳（メタデータ） (2025-06-12T17:32:02Z)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
A system identification approach to clustering vector autoregressive time series [50.66782357329375]
基礎となる力学に基づく時系列のクラスタ化は、複雑なシステムモデリングを支援するために研究者を惹きつけている。現在の時系列クラスタリング手法のほとんどは、スカラー時系列のみを処理し、ホワイトノイズとして扱うか、高品質な特徴構築のためにドメイン知識に依存している。システム識別アプローチは、機能/測定構造に頼るのではなく、基礎となる自己回帰力学を明示的に考慮することで、ベクトル時系列クラスタリングを処理できる。
論文参考訳（メタデータ） (2025-05-20T14:31:44Z)
Generative Models for Long Time Series: Approximately Equivariant Recurrent Network Structures for an Adjusted Training Scheme [4.327763441385371]
本稿では,連続層を有する変分オートエンコーダ(VAE)に基づく時系列データに対する簡易かつ効果的な生成モデルを提案する。本手法では,シーケンス長を漸進的に向上させる適応型トレーニング手法を提案する。リカレントアーキテクチャを利用することで、モデルはシーケンス長に関係なく定数数のパラメータを保持する。
論文参考訳（メタデータ） (2025-05-08T07:52:37Z)
State Soup: In-Context Skill Learning, Retrieval and Mixing [22.485700977542127]
新しいタイプのゲート線形リカレントニューラルネットワークは、様々なシーケンスモデリング問題に対して最先端の性能に達した。ここでは、パラメータによるモデルマージの成功に触発された、ステートフルシーケンスモデルの別の利点について検討する。微調整学習と文脈内学習の並列性に基づいて、内部状態を記憶、検索、線形結合が可能なタスクベクトルとして扱うことができるかどうかを検討する。
論文参考訳（メタデータ） (2024-06-12T17:06:07Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文参考訳（メタデータ） (2023-06-08T17:59:58Z)
Latent Neural ODEs with Sparse Bayesian Multiple Shooting [13.104556034767025]
長い軌道上でのニューラルODEなどの動的モデルのトレーニングは、モデルトレーニングを実際に動作させるためには、軌道分割のような様々なトリックを使用する必要がある難しい問題である。本稿では,並列に最適化されたトラジェクトリを管理可能なショートセグメントに分割する,ニューラルネットワークの多射法を提案する。複数の大規模ベンチマークデータセット上で、効率的で安定したトレーニングと最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2022-10-07T11:36:29Z)
Grasping Core Rules of Time Series through Pure Models [6.849905754473385]
PureTSは3つの純粋な線形層を持つネットワークであり、長いシーケンス予測タスクの80%で最先端を達成した。本稿では, 純粋な線形層の可能性について考察する。
論文参考訳（メタデータ） (2022-08-15T10:22:15Z)
Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文参考訳（メタデータ） (2022-07-20T07:26:15Z)
Oscillatory Fourier Neural Network: A Compact and Efficient Architecture for Sequential Processing [16.69710555668727]
本稿では,コサイン活性化と時系列処理のための時間変化成分を有する新しいニューロンモデルを提案する。提案したニューロンは、スペクトル領域に逐次入力を投影するための効率的なビルディングブロックを提供する。 IMDBデータセットの感情分析に提案されたモデルを適用すると、5時間以内のテスト精度は89.4%に達する。
論文参考訳（メタデータ） (2021-09-14T19:08:07Z)
Learning from Irregularly-Sampled Time Series: A Missing Data Perspective [18.493394650508044]
不規則にサンプリングされた時系列は、医療を含む多くの領域で発生する。連続だが観測されていない関数からサンプリングされた指数値対の列として、不規則にサンプリングされた時系列データをモデル化する。本稿では,変分オートエンコーダと生成対向ネットワークに基づく学習手法を提案する。
論文参考訳（メタデータ） (2020-08-17T20:01:55Z)
STEER: Simple Temporal Regularization For Neural ODEs [80.80350769936383]
トレーニング中のODEの終了時刻をランダムにサンプリングする新しい正規化手法を提案する。提案された正規化は実装が簡単で、オーバーヘッドを無視でき、様々なタスクで有効である。本稿では,フローの正規化,時系列モデル,画像認識などの実験を通じて,提案した正規化がトレーニング時間を大幅に短縮し,ベースラインモデルよりも性能を向上できることを示す。
論文参考訳（メタデータ） (2020-06-18T17:44:50Z)
Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文参考訳（メタデータ） (2020-06-08T09:53:35Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。