論文の概要: Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges
- arxiv url: http://arxiv.org/abs/2404.16112v1
- Date: Wed, 24 Apr 2024 18:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:12:20.931786
- Title: Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges
- Title(参考訳): Mamba-360:Long Sequence Modellingに代わる変圧器としての状態空間モデルの調査:方法、応用、課題
- Authors: Badri Narayana Patro, Vijay Srinivas Agneeswaran,
- Abstract要約: 状態空間モデル(SSM)は、シーケンスモデリングのパラダイムの代替として期待できるものとして登場した。
この調査では、視覚、ビデオ、音声、音声、言語(特に長いシーケンスモデリング)、医学(ゲノミクスを含む)、化学(薬物設計のような)、レコメンデーションシステム、時系列分析など、さまざまな分野におけるSSMの応用について紹介する。
- 参考スコア(独自算出の注目度): 1.4408339076385341
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sequence modeling is a crucial area across various domains, including Natural Language Processing (NLP), speech recognition, time series forecasting, music generation, and bioinformatics. Recurrent Neural Networks (RNNs) and Long Short Term Memory Networks (LSTMs) have historically dominated sequence modeling tasks like Machine Translation, Named Entity Recognition (NER), etc. However, the advancement of transformers has led to a shift in this paradigm, given their superior performance. Yet, transformers suffer from $O(N^2)$ attention complexity and challenges in handling inductive bias. Several variations have been proposed to address these issues which use spectral networks or convolutions and have performed well on a range of tasks. However, they still have difficulty in dealing with long sequences. State Space Models(SSMs) have emerged as promising alternatives for sequence modeling paradigms in this context, especially with the advent of S4 and its variants, such as S4nd, Hippo, Hyena, Diagnol State Spaces (DSS), Gated State Spaces (GSS), Linear Recurrent Unit (LRU), Liquid-S4, Mamba, etc. In this survey, we categorize the foundational SSMs based on three paradigms namely, Gating architectures, Structural architectures, and Recurrent architectures. This survey also highlights diverse applications of SSMs across domains such as vision, video, audio, speech, language (especially long sequence modeling), medical (including genomics), chemical (like drug design), recommendation systems, and time series analysis, including tabular data. Moreover, we consolidate the performance of SSMs on benchmark datasets like Long Range Arena (LRA), WikiText, Glue, Pile, ImageNet, Kinetics-400, sstv2, as well as video datasets such as Breakfast, COIN, LVU, and various time series datasets. The project page for Mamba-360 work is available on this webpage.\url{https://github.com/badripatro/mamba360}.
- Abstract(参考訳): シーケンスモデリングは自然言語処理(NLP)、音声認識、時系列予測、音楽生成、バイオインフォマティクスなど、さまざまな分野において重要な領域である。
Recurrent Neural Networks(RNN)とLong Short Term Memory Networks(LSTM)は歴史的に、機械翻訳、名前付きエンティティ認識(NER)といったシーケンスモデリングタスクを支配してきた。
しかし、変圧器の進歩は、優れた性能を考えれば、このパラダイムの変化につながっている。
しかし、変換器は$O(N^2)$注目の複雑さと帰納バイアスを扱う際の課題に悩まされる。
スペクトルネットワークや畳み込みを使い、様々なタスクでうまく機能するこれらの問題に対処するために、いくつかのバリエーションが提案されている。
しかし、それらは長いシーケンスを扱うのに依然として困難である。
状態空間モデル(SSM)は、特にS4の出現や、S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、LRU、Liquid-S4、Mambaなどの変種と共に、この文脈におけるシーケンスモデリングパラダイムの有望な代替品として登場した。
本稿では,3つのパラダイム,すなわちゲーティングアーキテクチャ,構造アーキテクチャ,リカレントアーキテクチャに基づいて,基本的なSSMを分類する。
この調査ではまた、視覚、ビデオ、音声、音声、言語(特に長いシーケンスモデリング)、医学(ゲノミクスを含む)、化学(薬物設計のような)、レコメンデーションシステム、および表データを含む時系列分析など、さまざまな領域におけるSSMの応用についても強調した。
さらに,Long Range Arena (LRA), WikiText, Glue, Pile, ImageNet, Kinetics-400, sstv2などのベンチマークデータセットと,Breakfast, COIN, LVU, および各種時系列データセットのSSMの性能を集約した。
Mamba-360のプロジェクトページは、このWebページにある。
https://github.com/badripatro/mamba360}。
関連論文リスト
- TIMBA: Time series Imputation with Bi-directional Mamba Blocks and Diffusion models [0.0]
時間指向変換器を状態空間モデル(SSM)に置き換えることを提案する。
我々は、拡張表現を実現するために、SSM、グラフニューラルネットワーク、ノード指向変換器を統合するモデルを開発する。
論文 参考訳(メタデータ) (2024-10-08T11:10:06Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Computation-Efficient Era: A Comprehensive Survey of State Space Models in Medical Image Analysis [8.115549269867403]
状態空間モデル(SSM)は、最近、シーケンシャルなモデリングと視覚的表現学習において大きな関心を集めている。
コンピュータービジョンの進歩に乗じて、医療画像はMambaモデルによる新しい時代を告げた。
論文 参考訳(メタデータ) (2024-06-05T16:29:03Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Vision Mamba: A Comprehensive Survey and Taxonomy [11.025533218561284]
状態空間モデル (State Space Model, SSM) は、動的システムの振る舞いを記述・解析するために用いられる数学的モデルである。
最新の状態空間モデルに基づいて、Mambaは時間変化パラメータをSSMにマージし、効率的なトレーニングと推論のためのハードウェア認識アルゴリズムを定式化する。
Mambaは、Transformerを上回る可能性のある、新たなAIアーキテクチャになることが期待されている。
論文 参考訳(メタデータ) (2024-05-07T15:30:14Z) - State Space Model for New-Generation Network Alternative to Transformers: A Survey [52.812260379420394]
深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。
注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。
その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。
論文 参考訳(メタデータ) (2024-04-15T07:24:45Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z) - SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series [2.4379295576598436]
我々は,特定の固有値計算によるチャネルモデリングのためのEinstein FFT(EinFFT)を導入し,シーケンスモデリングにMambaブロックを用いる新しいアーキテクチャであるSiMBAを提案する。
SiMBAは既存のSSMよりも優れており、最先端の変換器と性能のギャップを埋めている。
論文 参考訳(メタデータ) (2024-03-22T17:22:56Z) - Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data [26.457571615782985]
状態空間モデルに基づくMambaは、テキストシーケンスをモデル化するための同等のパフォーマンスを実現することが示されている。
本稿では,Mambaアーキテクチャを任意の多次元データに拡張した汎用設計であるMamba-NDを提案する。
我々は,Mamba-NDが,多次元ベンチマークにおける最先端技術と性能の競争力を示すことを示す。
論文 参考訳(メタデータ) (2024-02-08T18:30:50Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。