論文の概要: State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era
- arxiv url: http://arxiv.org/abs/2406.09062v1
- Date: Thu, 13 Jun 2024 12:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:05:18.514684
- Title: State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era
- Title(参考訳): 長周期処理における状態空間モデリング:変圧器時代の再帰に関する調査
- Authors: Matteo Tiezzi, Michele Casoni, Alessandro Betti, Marco Gori, Stefano Melacci,
- Abstract要約: このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。
新たなイメージは、標準のバックプロパゲーション・オブ・タイムから外れた学習アルゴリズムによって構成される、新しいルートを考える余地があることを示唆している。
- 参考スコア(独自算出の注目度): 59.279784235147254
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effectively learning from sequential data is a longstanding goal of Artificial Intelligence, especially in the case of long sequences. From the dawn of Machine Learning, several researchers engaged in the search of algorithms and architectures capable of processing sequences of patterns, retaining information about the past inputs while still leveraging the upcoming data, without losing precious long-term dependencies and correlations. While such an ultimate goal is inspired by the human hallmark of continuous real-time processing of sensory information, several solutions simplified the learning paradigm by artificially limiting the processed context or dealing with sequences of limited length, given in advance. These solutions were further emphasized by the large ubiquity of Transformers, that have initially shaded the role of Recurrent Neural Nets. However, recurrent networks are facing a strong recent revival due to the growing popularity of (deep) State-Space models and novel instances of large-context Transformers, which are both based on recurrent computations to go beyond several limits of currently ubiquitous technologies. In fact, the fast development of Large Language Models enhanced the interest in efficient solutions to process data over time. This survey provides an in-depth summary of the latest approaches that are based on recurrent models for sequential data processing. A complete taxonomy over the latest trends in architectural and algorithmic solutions is reported and discussed, guiding researchers in this appealing research field. The emerging picture suggests that there is room for thinking of novel routes, constituted by learning algorithms which depart from the standard Backpropagation Through Time, towards a more realistic scenario where patterns are effectively processed online, leveraging local-forward computations, opening to further research on this topic.
- Abstract(参考訳): シーケンシャルデータから効果的に学習することは、特に長いシーケンスの場合、人工知能の長年の目標である。
機械学習の夜明けから、何人かの研究者が、パターンのシーケンスを処理し、過去の入力に関する情報を保持しながら、重要な長期的依存関係や相関を失うことなく、今後のデータを活用するアルゴリズムとアーキテクチャの探索に従事した。
このような究極のゴールは、感覚情報の連続的なリアルタイム処理という人間の目印に着想を得たものであるが、いくつかのソリューションは、処理されたコンテキストを人工的に制限したり、あらかじめ与えられた制限された長さのシーケンスを扱うことによって学習パラダイムを単純化した。
これらの解は、最初はリカレントニューラルネットワークの役割を陰にしていたトランスフォーマーの大きなユビキティによってさらに強調された。
しかし、リカレントネットワークは、現在ユビキタステクノロジーのいくつかの限界を越えているリカレント計算に基づいて、(深層)状態空間モデルや大コンテキストトランスフォーマーの新規インスタンスの人気が高まっているため、近年、強力なリカレントリバイバルに直面している。
実際、大規模言語モデルの迅速な開発は、時間とともにデータを処理する効率的なソリューションへの関心を高めました。
このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。
アーキテクチャおよびアルゴリズム的解法の最新動向に関する完全な分類学を報告し、議論し、この魅力的な研究分野の研究者を導く。
新たな図は、標準のバックプロパゲーション・トゥ・タイムから外れた学習アルゴリズムによって構成される新しいルートを考える余地があることを示唆している。
関連論文リスト
- On the Resurgence of Recurrent Models for Long Sequences -- Survey and
Research Opportunities in the Transformer Era [59.279784235147254]
この調査は、Recurrenceの統一の傘の下に構築されたこれらのトレンドの概要を提供することを目的としている。
長いシーケンスを処理するという考え方を捨てる際に顕著になる新しい研究機会を強調している。
論文 参考訳(メタデータ) (2024-02-12T23:55:55Z) - Deep-Unfolding for Next-Generation Transceivers [49.338084953253755]
次世代マルチインプット・マルチアウトプット(MIMO)トランシーバの定義に関する研究が進められている。
無線通信における先進トランシーバーの設計において、しばしば反復アルゴリズムにつながる最適化アプローチは大きな成功を収めた。
ディープニューラルネットワーク(DNN)で反復アルゴリズムを近似するディープラーニングは、計算時間を著しく短縮することができる。
ディープラーニングと反復アルゴリズムの両方の利点を取り入れたディープアンフォールディングが登場し、反復アルゴリズムを階層的な構造に展開している。
論文 参考訳(メタデータ) (2023-05-15T02:13:41Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Data Augmentation techniques in time series domain: A survey and
taxonomy [0.20971479389679332]
時系列を扱うディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。
この研究は、すべての利用可能なアルゴリズムの概要を提供するために、この分野の最先端を体系的にレビューする。
本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。
論文 参考訳(メタデータ) (2022-06-25T17:09:00Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - Continual Learning of Long Topic Sequences in Neural Information
Retrieval [2.3846478553599098]
まず,MSMarcoコーパスに基づいて,トピックの長いストリームをモデル化するデータセットを提案する。
次に、これらのストリームを継続的に学習しながら、最近のニューラルIRモデルの能力を詳細に分析する。
論文 参考訳(メタデータ) (2022-01-10T14:19:09Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。