論文の概要: SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series
- arxiv url: http://arxiv.org/abs/2403.15360v2
- Date: Wed, 24 Apr 2024 18:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 20:48:34.169303
- Title: SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series
- Title(参考訳): SiMBA: 視覚と多変量時系列のためのシンプルマンバベースアーキテクチャ
- Authors: Badri N. Patro, Vijay S. Agneeswaran,
- Abstract要約: 我々は,特定の固有値計算によるチャネルモデリングのためのEinstein FFT(EinFFT)を導入し,シーケンスモデリングにMambaブロックを用いる新しいアーキテクチャであるSiMBAを提案する。
SiMBAは既存のSSMよりも優れており、最先端の変換器と性能のギャップを埋めている。
- 参考スコア(独自算出の注目度): 2.4379295576598436
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have widely adopted attention networks for sequence mixing and MLPs for channel mixing, playing a pivotal role in achieving breakthroughs across domains. However, recent literature highlights issues with attention networks, including low inductive bias and quadratic complexity concerning input sequence length. State Space Models (SSMs) like S4 and others (Hippo, Global Convolutions, liquid S4, LRU, Mega, and Mamba), have emerged to address the above issues to help handle longer sequence lengths. Mamba, while being the state-of-the-art SSM, has a stability issue when scaled to large networks for computer vision datasets. We propose SiMBA, a new architecture that introduces Einstein FFT (EinFFT) for channel modeling by specific eigenvalue computations and uses the Mamba block for sequence modeling. Extensive performance studies across image and time-series benchmarks demonstrate that SiMBA outperforms existing SSMs, bridging the performance gap with state-of-the-art transformers. Notably, SiMBA establishes itself as the new state-of-the-art SSM on ImageNet and transfer learning benchmarks such as Stanford Car and Flower as well as task learning benchmarks as well as seven time series benchmark datasets. The project page is available on this website ~\url{https://github.com/badripatro/Simba}.
- Abstract(参考訳): トランスフォーマーは、シーケンスミキシングのための注意ネットワークとチャネルミキシングのためのMDPを広く採用しており、ドメイン間のブレークスルーを達成する上で重要な役割を担っている。
しかし、近年の文献では、低い帰納バイアスや入力シーケンス長に関する二次的複雑さなど、注意ネットワークの問題が強調されている。
S4などの状態空間モデル(Hippo、Global Convolutions、Liquid S4、LRU、Mega、Mamba)は、長いシーケンス長を扱うために上記の問題に対処するために登場した。
Mambaは最先端のSSMだが、コンピュータビジョンデータセットの大規模ネットワークにスケールする場合、安定性に問題がある。
我々は,特定の固有値計算によるチャネルモデリングのためのEinstein FFT(EinFFT)を導入し,シーケンスモデリングにMambaブロックを用いる新しいアーキテクチャであるSiMBAを提案する。
画像と時系列のベンチマークによる大規模なパフォーマンス調査は、SiMBAが既存のSSMよりも優れており、最先端のトランスフォーマーとパフォーマンスギャップを埋めていることを示している。
特に、SiMBAは、ImageNetとStanford CarやFlowerなどのトランスファーラーニングベンチマーク、タスクラーニングベンチマーク、および7つの時系列ベンチマークデータセットにおいて、最先端のSSMとしての地位を確立している。
プロジェクトページは ~\url{https://github.com/badripatro/Simba} で公開されている。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - TIMBA: Time series Imputation with Bi-directional Mamba Blocks and Diffusion models [0.0]
時間指向変換器を状態空間モデル(SSM)に置き換えることを提案する。
我々は、拡張表現を実現するために、SSM、グラフニューラルネットワーク、ノード指向変換器を統合するモデルを開発する。
論文 参考訳(メタデータ) (2024-10-08T11:10:06Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling [70.94320930424331]
選択状態空間モデル(SSM)であるMambaとSliding Window Attention(SWA)を組み合わせた単純なハイブリッドアーキテクチャであるSambaを提案する。
Sambaは、特定のシーケンスを選択的にリカレントな隠蔽状態に圧縮すると同時に、アテンション機構で正確に記憶を思い出す能力を維持している。
線形時間シーケンスモデルとして、Sambaは128Kの処理プロンプトでグループアテンションを持つトランスフォーマーに比べて3.73倍のスループットを保ち、無制限のストリーミングで64Kトークンを生成する場合の3.64倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-06-11T17:50:51Z) - Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges [1.4408339076385341]
状態空間モデル(SSM)は、シーケンスモデリングのパラダイムの代替として期待できるものとして登場した。
この調査では、視覚、ビデオ、音声、音声、言語(特に長いシーケンスモデリング)、医学(ゲノミクスを含む)、化学(薬物設計のような)、レコメンデーションシステム、時系列分析など、さまざまな分野におけるSSMの応用について紹介する。
論文 参考訳(メタデータ) (2024-04-24T18:10:31Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。