Fugu-MT 論文翻訳(概要): MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection

論文の概要: MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection

arxiv url: http://arxiv.org/abs/2403.19888v4
Date: Tue, 23 Jul 2024 21:33:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 19:01:10.254793
Title: MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection
Title（参考訳）: MambaMixer: デュアルトークンとチャネル選択による効率的な選択状態空間モデル
Authors: Ali Behrouz, Michele Santacatterina, Ramin Zabih,
Abstract要約: MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
参考スコア（独自算出の注目度）: 5.37935922811333
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in deep learning have mainly relied on Transformers due to their data dependency and ability to learn at scale. The attention module in these architectures, however, exhibits quadratic time and space in input size, limiting their scalability for long-sequence modeling. Despite recent attempts to design efficient and effective architecture backbone for multi-dimensional data, such as images and multivariate time series, existing models are either data independent, or fail to allow inter- and intra-dimension communication. Recently, State Space Models (SSMs), and more specifically Selective State Space Models, with efficient hardware-aware implementation, have shown promising potential for long sequence modeling. Motivated by the success of SSMs, we present MambaMixer, a new architecture with data-dependent weights that uses a dual selection mechanism across tokens and channels, called Selective Token and Channel Mixer. MambaMixer connects selective mixers using a weighted averaging mechanism, allowing layers to have direct access to early features. As a proof of concept, we design Vision MambaMixer (ViM2) and Time Series MambaMixer (TSM2) architectures based on the MambaMixer block and explore their performance in various vision and time series forecasting tasks. Our results underline the importance of selective mixing across both tokens and channels. In ImageNet classification, object detection, and semantic segmentation tasks, ViM2 achieves competitive performance with well-established vision models and outperforms SSM-based vision models. In time series forecasting, TSM2 achieves outstanding performance compared to state-of-the-art methods while demonstrating significantly improved computational cost. These results show that while Transformers, cross-channel attention, and MLPs are sufficient for good performance in time series forecasting, neither is necessary.
Abstract（参考訳）: ディープラーニングの最近の進歩は、データ依存と大規模学習能力のため、主にTransformerに依存している。しかし、これらのアーキテクチャのアテンションモジュールは2次時間と2次空間の入力サイズを示し、長いシーケンスモデリングのスケーラビリティを制限している。近年、画像や多変量時系列などの多次元データのための効率的で効果的なアーキテクチャバックボーンを設計しようとする試みが試みられているが、既存のモデルはデータに依存しているか、次元間通信を許さないかのいずれかである。近年、SSM(State Space Models)やより具体的にはSelective State Space Models(SSM)は、ハードウェアを意識した効率的な実装であり、長いシーケンスモデリングの有望な可能性を示している。 SSMの成功に触発されたMambaMixerは、Selective TokenとChannel Mixerと呼ばれるトークンとチャネル間の二重選択機構を用いた、データ依存の重み付けを持つ新しいアーキテクチャである。 MambaMixerは、重み付けされた平均化メカニズムを使用して選択ミキサーを接続する。概念実証として,MambaMixerブロックに基づくVision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) アーキテクチャを設計し,その性能を様々なビジョンや時系列予測タスクで探索する。この結果から,トークンとチャネル間の選択的混合の重要性が示唆された。 ImageNet分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて、ViM2は確立されたビジョンモデルとの競合性能を達成し、SSMベースのビジョンモデルを上回っている。時系列予測では、TSM2は最先端の手法と比較して優れた性能を達成し、計算コストは大幅に向上した。これらの結果から,トランスフォーマー,クロスチャンネルアテンション,MPPは時系列予測において十分な性能を示すが,どちらも必要ではないことがわかった。

関連論文リスト

Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。 CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文参考訳（メタデータ） (2024-12-28T08:49:23Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
A Mamba Foundation Model for Time Series Forecasting [13.593170999506889]
本稿では,マンバアーキテクチャ上に構築された時系列予測のための線形複雑基盤モデルであるTSMambaを紹介する。このモデルは、前方および後方のMambaエンコーダを通して時間的依存関係をキャプチャし、高い予測精度を達成する。また、タスク固有の予測モデルと比較して、競争力や優れたフルショットパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-05T09:34:05Z)
TIMBA: Time series Imputation with Bi-directional Mamba Blocks and Diffusion models [0.0]
時間指向変換器を状態空間モデル(SSM)に置き換えることを提案する。我々は、拡張表現を実現するために、SSM、グラフニューラルネットワーク、ノード指向変換器を統合するモデルを開発する。
論文参考訳（メタデータ） (2024-10-08T11:10:06Z)
Mamba or Transformer for Time Series Forecasting? Mixture of Universals (MoU) Is All You Need [28.301119776877822]
時系列予測には、正確な予測のために短期と長期の依存関係のバランスが必要である。変換器は長期依存のモデリングに優れているが、2次計算コストで批判されている。 Mambaは、ほぼ直線的な代替手段を提供するが、潜在的な情報損失のため、時系列の長期予測では効果が低いと報告されている。
論文参考訳（メタデータ） (2024-08-28T17:59:27Z)
Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文参考訳（メタデータ） (2024-07-18T17:59:58Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting [5.166854384000439]
長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。近年,Mamba という新しい状態空間モデル (SSM) が提案されている。入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaは予測性能と計算効率のバランスをとる大きな可能性を示した。
論文参考訳（メタデータ） (2024-04-24T09:45:48Z)
The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。このようなモデルを注意駆動モデルとみなすことができる。この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文参考訳（メタデータ） (2024-03-03T18:58:21Z)
Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-01T18:01:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。