論文の概要: MoE-Mamba: Efficient Selective State Space Models with Mixture of
Experts
- arxiv url: http://arxiv.org/abs/2401.04081v1
- Date: Mon, 8 Jan 2024 18:35:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 13:54:23.894539
- Title: MoE-Mamba: Efficient Selective State Space Models with Mixture of
Experts
- Title(参考訳): moe-mamba: 専門家の混合による効率的な選択状態空間モデル
- Authors: Maciej Pi\'oro, Kamil Ciebiera, Krystian Kr\'ol, Jan Ludziejewski,
Sebastian Jaszczur
- Abstract要約: 状態空間モデル(SSM)はシーケンシャルなモデリングの分野において真剣な競争者となり、トランスフォーマーの優位性に挑戦している。
スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。
本稿では,SSMをベースとした最新のモデルであるMambaについて紹介する。
- 参考スコア(独自算出の注目度): 0.5247058439149641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State Space Models (SSMs) have become serious contenders in the field of
sequential modeling, challenging the dominance of Transformers. At the same
time, Mixture of Experts (MoE) has significantly improved Transformer-based
LLMs, including recent state-of-the-art open-source models. We propose that to
unlock the potential of SSMs for scaling, they should be combined with MoE. We
showcase this on Mamba, a recent SSM-based model that achieves remarkable,
Transformer-like performance. Our model, MoE-Mamba, outperforms both Mamba and
Transformer-MoE. In particular, MoE-Mamba reaches the same performance as Mamba
in 2.2x less training steps while preserving the inference performance gains of
Mamba against the Transformer.
- Abstract(参考訳): 状態空間モデル(ssm)はシーケンシャルモデリングの分野で真剣な競争相手となり、トランスフォーマーの支配に挑戦している。
同時に、Mixture of Experts (MoE)は、最新の最先端オープンソースモデルを含むTransformerベースのLLMを大幅に改善した。
スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。
本稿では,SSMをベースとした最新のモデルであるMambaについて紹介する。
私たちのモデルであるMoE-Mambaは、MambaとTransformer-MoEの両方より優れています。
特に、MoE-Mambaは2.2倍のトレーニングステップでMambaと同じパフォーマンスを達成しつつ、MambaのTransformerに対する推論性能向上を保っている。
関連論文リスト
- CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z) - A Survey on Vision Mamba: Models, Applications and Challenges [35.132647051030084]
最近の選択的構造化状態空間モデルであるMambaは、長いシーケンスモデリングタスクにおいて優れた性能を発揮する。
Mambaは畳み込みニューラルネットワークのモデリング制約を緩和し、Transformerと同様の高度なモデリング機能を提供する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - SPMamba: State-space model is all you need in speech separation [6.590157910988076]
状態空間モデルを用いた音声分離のためのネットワークアーキテクチャを提案する。
我々はTF-GridNetモデルを基本フレームワークとして採用し、Transformerコンポーネントを双方向のMambaモジュールで置き換える。
実験の結果,マンバモデルの性能面において重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding [49.88140766026886]
状態空間モデルMambaは、長周期モデリングからビデオモデリングへの成功を拡大する有望な特性を示している。
我々は、マンバがビデオのモデリングにおいて様々な役割を担い、マンバが優位性を示す様々なタスクを調査しながら、包括的な研究を行う。
実験の結果,ビデオ専用タスクとビデオ言語タスクの両方において,Mambaの強い可能性を示すとともに,有望な効率と性能のトレードオフを示すことができた。
論文 参考訳(メタデータ) (2024-03-14T17:57:07Z) - LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image
Segmentation [10.563051220050035]
本稿では,軽量なフレームワークとして,Mamba と UNet を統合した Lightweight Mamba UNet (LightM-UNet) を紹介する。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
論文 参考訳(メタデータ) (2024-03-08T12:07:42Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。