論文の概要: SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series
- arxiv url: http://arxiv.org/abs/2403.15360v1
- Date: Fri, 22 Mar 2024 17:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 16:40:19.771113
- Title: SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series
- Title(参考訳): SiMBA: 視覚と多変量時系列のためのシンプルマンバベースアーキテクチャ
- Authors: Badri N. Patro, Vijay S. Agneeswaran,
- Abstract要約: 我々は,特定の固有値計算によるチャネルモデリングのためのEinstein FFT(EinFFT)を導入し,シーケンスモデリングにMambaブロックを用いる新しいアーキテクチャであるSiMBAを提案する。
SiMBAは既存のSSMよりも優れており、最先端の変換器と性能のギャップを埋めている。
- 参考スコア(独自算出の注目度): 2.4379295576598436
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have widely adopted attention networks for sequence mixing and MLPs for channel mixing, playing a pivotal role in achieving breakthroughs across domains. However, recent literature highlights issues with attention networks, including low inductive bias and quadratic complexity concerning input sequence length. State Space Models (SSMs) like S4 and others (Hippo, Global Convolutions, liquid S4, LRU, Mega, and Mamba), have emerged to address the above issues to help handle longer sequence lengths. Mamba, while being the state-of-the-art SSM, has a stability issue when scaled to large networks for computer vision datasets. We propose SiMBA, a new architecture that introduces Einstein FFT (EinFFT) for channel modeling by specific eigenvalue computations and uses the Mamba block for sequence modeling. Extensive performance studies across image and time-series benchmarks demonstrate that SiMBA outperforms existing SSMs, bridging the performance gap with state-of-the-art transformers. Notably, SiMBA establishes itself as the new state-of-the-art SSM on ImageNet and transfer learning benchmarks such as Stanford Car and Flower as well as task learning benchmarks as well as seven time series benchmark datasets. The project page is available on this website ~\url{https://github.com/badripatro/Simba}.
- Abstract(参考訳): トランスフォーマーは、シーケンスミキシングのための注意ネットワークとチャネルミキシングのためのMDPを広く採用しており、ドメイン間のブレークスルーを達成する上で重要な役割を担っている。
しかし、近年の文献では、低い帰納バイアスや入力シーケンス長に関する二次的複雑さなど、注意ネットワークの問題が強調されている。
S4などの状態空間モデル(Hippo、Global Convolutions、Liquid S4、LRU、Mega、Mamba)は、長いシーケンス長を扱うために上記の問題に対処するために登場した。
Mambaは最先端のSSMだが、コンピュータビジョンデータセットの大規模ネットワークにスケールする場合、安定性に問題がある。
我々は,特定の固有値計算によるチャネルモデリングのためのEinstein FFT(EinFFT)を導入し,シーケンスモデリングにMambaブロックを用いる新しいアーキテクチャであるSiMBAを提案する。
画像と時系列のベンチマークによる大規模なパフォーマンス調査は、SiMBAが既存のSSMよりも優れており、最先端のトランスフォーマーとパフォーマンスギャップを埋めていることを示している。
特に、SiMBAは、ImageNetとStanford CarやFlowerなどのトランスファーラーニングベンチマーク、タスクラーニングベンチマーク、および7つの時系列ベンチマークデータセットにおいて、最先端のSSMとしての地位を確立している。
プロジェクトページは ~\url{https://github.com/badripatro/Simba} で公開されている。
関連論文リスト
- Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges [1.4408339076385341]
状態空間モデル(SSM)は、シーケンスモデリングのパラダイムの代替として期待できるものとして登場した。
この調査では、視覚、ビデオ、音声、音声、言語(特に長いシーケンスモデリング)、医学(ゲノミクスを含む)、化学(薬物設計のような)、レコメンデーションシステム、時系列分析など、さまざまな分野におけるSSMの応用について紹介する。
論文 参考訳(メタデータ) (2024-04-24T18:10:31Z) - Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting [14.476978391383405]
時系列予測は重要な問題であり、天気予報、株式市場、科学シミュレーションなど様々な応用において重要な役割を果たしている。
状態空間モデル(SSM)の最近の進歩は、長距離依存のモデリングにおいて顕著な性能を示している。
本稿では,長距離依存にMambaを,短距離依存にTransformerを内部的に組み合わせたハイブリッドフレームワークMambaformerを提案する。
論文 参考訳(メタデータ) (2024-04-23T05:43:44Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [59.38202882781188]
本稿では,大域的モデリングと線形複雑度を考慮したフレームワークであるPointMambaを提案する。
組込み点パッチを入力として,SSMのグローバルモデリング能力を高めるための並べ替え戦略を提案する。
実験の結果,提案したPointMambaは,異なるポイントクラウド分析データセット上で,トランスフォーマーをベースとした性能よりも優れていた。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - VMamba: Visual State Space Model [92.83984290020891]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。
本稿では,ViTsの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルであるVMambaを提案する。
視覚データ処理におけるVMambaの適応性を高めるため,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。