論文の概要: MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection
- arxiv url: http://arxiv.org/abs/2403.19888v3
- Date: Thu, 20 Jun 2024 17:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 04:30:07.894512
- Title: MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection
- Title(参考訳): MambaMixer: デュアルトークンとチャネル選択による効率的な選択状態空間モデル
- Authors: Ali Behrouz, Michele Santacatterina, Ramin Zabih,
- Abstract要約: トークンとチャネル間の二重選択機構を用いたデータ依存重みを持つ新しいSSMベースのアーキテクチャであるMambaMixerブロックを提案する。
また、QSMixerと呼ばれる効率の良いMambaMixerの変種も提示し、シークエンスと埋め込み次元の両方に沿って情報を混合する。
画像分類,セグメンテーション,オブジェクト検出における手法の性能を評価する。
- 参考スコア(独自算出の注目度): 5.37935922811333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep learning have mainly relied on Transformers due to their data dependency and ability to learn at scale. The attention module in these architectures, however, exhibits quadratic time and space in input size, limiting their scalability for long-sequence modeling. State Space Models (SSMs), and more specifically Selective SSMs (S6), with efficient hardware-aware implementation, have shown promising potential for long causal sequence modeling. They, however, use separate blocks for each channel and fail to filter irrelevant channels and capture inter-channel dependencies. Natural attempt to mix information across channels using MLP, attention, or SSMs results in further instability in the training of SSMs for large networks and/or nearly double the number of parameters. We present the MambaMixer block, a new SSM-based architecture with data-dependent weights that uses a dual selection mechanism across tokens and channels-called Selective Token and Channel Mixer. To mitigate doubling the number of parameters, we present a new non-causal heuristic of the S6 block with a hardware-friendly implementation. We further present an efficient variant of MambaMixer, called QSMixer, that mixes information along both sequence and embedding dimensions. As a proof of concept, we design Vision MambaMixer (ViM2) and Vision QSMixer (ViQS) architectures. To enhance their ability to capture spatial information in images, we present Switch of Scans (SoS) that dynamically uses a set of useful image scans to traverse image patches. We evaluate the performance of our methods in image classification, segmentation, and object detection. Our results underline the importance of selectively mixing across both tokens and channels and show the competitive (resp. superior) performance of our methods with well-established vision models (resp. SSM-based models).
- Abstract(参考訳): ディープラーニングの最近の進歩は、データ依存と大規模学習能力のため、主にTransformerに依存している。
しかし、これらのアーキテクチャのアテンションモジュールは2次時間と2次空間の入力サイズを示し、長いシーケンスモデリングのスケーラビリティを制限している。
State Space Models (SSM) およびより具体的には Selective SSMs (S6) は、ハードウェアを意識した効率的な実装であり、長い因果シーケンスモデリングの有望な可能性を示している。
しかし、チャンネル毎に別々のブロックを使用しており、無関係なチャンネルをフィルタリングしたり、チャンネル間の依存関係をキャプチャできなかった。
MLP、アテンション、SSMを使ってチャネル間で情報を混合しようとする自然な試みは、大きなネットワークのためのSSMのトレーニングや、パラメータの2倍近い数のトレーニングにおいて、さらなる不安定性をもたらす。
我々はSSMベースの新しいアーキテクチャであるMambaMixerブロックを提案する。これはトークンとチャネルをまたいだ2つの選択機構を使い、Selective TokenとChannel Mixerと呼ばれる。
パラメータ数を2倍に抑えるため,ハードウェアフレンドリーな実装でS6ブロックの非因果的ヒューリスティックを新たに提案する。
さらに,QSMixerと呼ばれる効率の良いMambaMixerの変種について述べる。
概念実証として、Vision MambaMixer (ViM2) と Vision QSMixer (ViQS) アーキテクチャを設計する。
画像中の空間情報をキャプチャする能力を高めるために,画像パッチを横切るために有用な画像スキャンのセットを動的に使用するSwitch of Scans(SoS)を提案する。
画像分類,セグメンテーション,オブジェクト検出における手法の性能を評価する。
本研究の結果は,トークンとチャネルを選択的に混合することの重要性を浮き彫りにして,十分に確立されたビジョンモデル(SSMベースモデル)を用いた手法の競争的(より優れた)性能を示すものである。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - A Mamba Foundation Model for Time Series Forecasting [13.593170999506889]
本稿では,マンバアーキテクチャ上に構築された時系列予測のための線形複雑基盤モデルであるTSMambaを紹介する。
このモデルは、前方および後方のMambaエンコーダを通して時間的依存関係をキャプチャし、高い予測精度を達成する。
また、タスク固有の予測モデルと比較して、競争力や優れたフルショットパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-05T09:34:05Z) - TIMBA: Time series Imputation with Bi-directional Mamba Blocks and Diffusion models [0.0]
時間指向変換器を状態空間モデル(SSM)に置き換えることを提案する。
我々は、拡張表現を実現するために、SSM、グラフニューラルネットワーク、ノード指向変換器を統合するモデルを開発する。
論文 参考訳(メタデータ) (2024-10-08T11:10:06Z) - Mamba or Transformer for Time Series Forecasting? Mixture of Universals (MoU) Is All You Need [28.301119776877822]
時系列予測には、正確な予測のために短期と長期の依存関係のバランスが必要である。
変換器は長期依存のモデリングに優れているが、2次計算コストで批判されている。
Mambaは、ほぼ直線的な代替手段を提供するが、潜在的な情報損失のため、時系列の長期予測では効果が低いと報告されている。
論文 参考訳(メタデータ) (2024-08-28T17:59:27Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting [5.166854384000439]
長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。
近年,Mamba という新しい状態空間モデル (SSM) が提案されている。
入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaは予測性能と計算効率のバランスをとる大きな可能性を示した。
論文 参考訳(メタデータ) (2024-04-24T09:45:48Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。