論文の概要: MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection
- arxiv url: http://arxiv.org/abs/2403.19888v1
- Date: Fri, 29 Mar 2024 00:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:54:17.848986
- Title: MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection
- Title(参考訳): MambaMixer: デュアルトークンとチャネル選択による効率的な選択状態空間モデル
- Authors: Ali Behrouz, Michele Santacatterina, Ramin Zabih,
- Abstract要約: MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
- 参考スコア(独自算出の注目度): 5.37935922811333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep learning have mainly relied on Transformers due to their data dependency and ability to learn at scale. The attention module in these architectures, however, exhibits quadratic time and space in input size, limiting their scalability for long-sequence modeling. Despite recent attempts to design efficient and effective architecture backbone for multi-dimensional data, such as images and multivariate time series, existing models are either data independent, or fail to allow inter- and intra-dimension communication. Recently, State Space Models (SSMs), and more specifically Selective State Space Models, with efficient hardware-aware implementation, have shown promising potential for long sequence modeling. Motivated by the success of SSMs, we present MambaMixer, a new architecture with data-dependent weights that uses a dual selection mechanism across tokens and channels, called Selective Token and Channel Mixer. MambaMixer connects selective mixers using a weighted averaging mechanism, allowing layers to have direct access to early features. As a proof of concept, we design Vision MambaMixer (ViM2) and Time Series MambaMixer (TSM2) architectures based on the MambaMixer block and explore their performance in various vision and time series forecasting tasks. Our results underline the importance of selective mixing across both tokens and channels. In ImageNet classification, object detection, and semantic segmentation tasks, ViM2 achieves competitive performance with well-established vision models and outperforms SSM-based vision models. In time series forecasting, TSM2 achieves outstanding performance compared to state-of-the-art methods while demonstrating significantly improved computational cost. These results show that while Transformers, cross-channel attention, and MLPs are sufficient for good performance in time series forecasting, neither is necessary.
- Abstract(参考訳): ディープラーニングの最近の進歩は、データ依存と大規模学習能力のため、主にTransformerに依存している。
しかし、これらのアーキテクチャのアテンションモジュールは2次時間と2次空間の入力サイズを示し、長いシーケンスモデリングのスケーラビリティを制限している。
近年、画像や多変量時系列などの多次元データのための効率的で効果的なアーキテクチャバックボーンを設計しようとする試みが試みられているが、既存のモデルはデータに依存しているか、次元間通信を許さないかのいずれかである。
近年、SSM(State Space Models)やより具体的にはSelective State Space Models(SSM)は、ハードウェアを意識した効率的な実装であり、長いシーケンスモデリングの有望な可能性を示している。
SSMの成功に触発されたMambaMixerは、Selective TokenとChannel Mixerと呼ばれるトークンとチャネル間の二重選択機構を用いた、データ依存の重み付けを持つ新しいアーキテクチャである。
MambaMixerは、重み付けされた平均化メカニズムを使用して選択ミキサーを接続する。
概念実証として,MambaMixerブロックに基づくVision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) アーキテクチャを設計し,その性能を様々なビジョンや時系列予測タスクで探索する。
この結果から,トークンとチャネル間の選択的混合の重要性が示唆された。
ImageNet分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて、ViM2は確立されたビジョンモデルとの競合性能を達成し、SSMベースのビジョンモデルを上回っている。
時系列予測では、TSM2は最先端の手法と比較して優れた性能を達成し、計算コストは大幅に向上した。
これらの結果から,トランスフォーマー,クロスチャンネルアテンション,MPPは時系列予測において十分な性能を示すが,どちらも必要ではないことがわかった。
関連論文リスト
- Bi-Mamba4TS: Bidirectional Mamba for Time Series Forecasting [4.43437150145582]
時系列予測のための双方向マンバであるBi-Mamba4TSを提案する。
我々のモデルは最先端の手法と比較して精度の高い予測を統一する。
論文 参考訳(メタデータ) (2024-04-24T09:45:48Z) - Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM [26.777455596989526]
状態空間モデル(SSM)の最近の進歩は、長いシーケンスモデリングにおいてかなりの可能性を秘めている。
我々は,SSMを用いた先駆的な動き生成モデルを示す,シンプルで効率的な手法であるモーション・マンバを提案する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-12T10:25:29Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State
Space Models [58.39336492765728]
がん診断のゴールドスタンダードである病理診断は、TransformerとMIL(Multiple Case Learning)フレームワークを併用して、全スライド画像(WSI)を用いて、優れたパフォーマンスを実現している。
選択的構造化状態空間モデル(Mamba)とMILとの協調によるWSI分類のためのMamMILフレームワークを提案する。
具体的には、マンバが一方向一次元(一次元)シーケンスモデリングしか行えないという問題を解決するため、双方向状態空間モデルと2次元コンテキスト認識ブロックを革新的に導入する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - VMamba: Visual State Space Model [92.83984290020891]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。
本稿では,ViTsの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルであるVMambaを提案する。
視覚データ処理におけるVMambaの適応性を高めるため,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。