論文の概要: SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series
- arxiv url: http://arxiv.org/abs/2403.15360v2
- Date: Wed, 24 Apr 2024 18:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 20:48:34.169303
- Title: SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series
- Title(参考訳): SiMBA: 視覚と多変量時系列のためのシンプルマンバベースアーキテクチャ
- Authors: Badri N. Patro, Vijay S. Agneeswaran,
- Abstract要約: 我々は,特定の固有値計算によるチャネルモデリングのためのEinstein FFT(EinFFT)を導入し,シーケンスモデリングにMambaブロックを用いる新しいアーキテクチャであるSiMBAを提案する。
SiMBAは既存のSSMよりも優れており、最先端の変換器と性能のギャップを埋めている。
- 参考スコア(独自算出の注目度): 2.4379295576598436
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have widely adopted attention networks for sequence mixing and MLPs for channel mixing, playing a pivotal role in achieving breakthroughs across domains. However, recent literature highlights issues with attention networks, including low inductive bias and quadratic complexity concerning input sequence length. State Space Models (SSMs) like S4 and others (Hippo, Global Convolutions, liquid S4, LRU, Mega, and Mamba), have emerged to address the above issues to help handle longer sequence lengths. Mamba, while being the state-of-the-art SSM, has a stability issue when scaled to large networks for computer vision datasets. We propose SiMBA, a new architecture that introduces Einstein FFT (EinFFT) for channel modeling by specific eigenvalue computations and uses the Mamba block for sequence modeling. Extensive performance studies across image and time-series benchmarks demonstrate that SiMBA outperforms existing SSMs, bridging the performance gap with state-of-the-art transformers. Notably, SiMBA establishes itself as the new state-of-the-art SSM on ImageNet and transfer learning benchmarks such as Stanford Car and Flower as well as task learning benchmarks as well as seven time series benchmark datasets. The project page is available on this website ~\url{https://github.com/badripatro/Simba}.
- Abstract(参考訳): トランスフォーマーは、シーケンスミキシングのための注意ネットワークとチャネルミキシングのためのMDPを広く採用しており、ドメイン間のブレークスルーを達成する上で重要な役割を担っている。
しかし、近年の文献では、低い帰納バイアスや入力シーケンス長に関する二次的複雑さなど、注意ネットワークの問題が強調されている。
S4などの状態空間モデル(Hippo、Global Convolutions、Liquid S4、LRU、Mega、Mamba)は、長いシーケンス長を扱うために上記の問題に対処するために登場した。
Mambaは最先端のSSMだが、コンピュータビジョンデータセットの大規模ネットワークにスケールする場合、安定性に問題がある。
我々は,特定の固有値計算によるチャネルモデリングのためのEinstein FFT(EinFFT)を導入し,シーケンスモデリングにMambaブロックを用いる新しいアーキテクチャであるSiMBAを提案する。
画像と時系列のベンチマークによる大規模なパフォーマンス調査は、SiMBAが既存のSSMよりも優れており、最先端のトランスフォーマーとパフォーマンスギャップを埋めていることを示している。
特に、SiMBAは、ImageNetとStanford CarやFlowerなどのトランスファーラーニングベンチマーク、タスクラーニングベンチマーク、および7つの時系列ベンチマークデータセットにおいて、最先端のSSMとしての地位を確立している。
プロジェクトページは ~\url{https://github.com/badripatro/Simba} で公開されている。
関連論文リスト
- LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image
Segmentation [10.563051220050035]
本稿では,軽量なフレームワークとして,Mamba と UNet を統合した Lightweight Mamba UNet (LightM-UNet) を紹介する。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
論文 参考訳(メタデータ) (2024-03-08T12:07:42Z) - The Hidden Attention of Mamba Models [61.25846109294293]
Mamba層は効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点により、トランスの自己注意層と基礎となるメカニズムを比較することができる。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - MambaIR: A Simple Baseline for Image Restoration with State-Space Model [49.618686676293926]
本研究では,画像復元のためのベンチマークモデルMambaIRを提案する。
本稿では,コンボリューションとチャネルアテンションを利用して,バニラマンバの能力を高めるResidual State Space Blockを提案する。
例えば、MambaIRはTransformerベースのベースラインSwinIRを0.36dBまで上回り、同様の計算コストを用いるが、大域的な受容場を持つ。
論文 参考訳(メタデータ) (2024-02-23T23:15:54Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [61.93962505128706]
本稿では,大域的モデリングと線形複雑度を考慮したフレームワークであるPointMambaを提案する。
組込み点パッチを入力として,SSMのグローバルモデリング能力を高めるための並べ替え戦略を提案する。
実験の結果,提案したPointMambaは,異なるポイントクラウド分析データセット上で,トランスフォーマーをベースとした性能よりも優れていた。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data [26.457571615782985]
状態空間モデルに基づくMambaは、テキストシーケンスをモデル化するための同等のパフォーマンスを実現することが示されている。
本稿では,Mambaアーキテクチャを任意の多次元データに拡張した汎用設計であるMamba-NDを提案する。
我々は,Mamba-NDが,多次元ベンチマークにおける最先端技術と性能の競争力を示すことを示す。
論文 参考訳(メタデータ) (2024-02-08T18:30:50Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning
Tasks [26.17303310342205]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。
これらの制約に対処するため、我々はMambaとアテンションブロックを組み合わせたハイブリッドモデルを導入し、個別に苦労するタスクにおいて個々のモデルを上回るようにした。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - VMamba: Visual State Space Model [96.83847407325486]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習の最も一般的な2つの基礎モデルである。
計算効率を向上しつつ,これらのコンポーネントを継承する新しいアーキテクチャを提案する。
空間領域を横断するクロススキャンモジュール(CSM)を導入し,任意の非因果的視覚画像を順序付きパッチシーケンスに変換する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model [51.10876815815515]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。