論文の概要: BlackMamba: Mixture of Experts for State-Space Models
- arxiv url: http://arxiv.org/abs/2402.01771v1
- Date: Thu, 1 Feb 2024 07:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:18:25.832397
- Title: BlackMamba: Mixture of Experts for State-Space Models
- Title(参考訳): BlackMamba: ステートスペースモデルの専門家の混在
- Authors: Quentin Anthony, Yury Tokpanov, Paolo Glorioso, Beren Millidge
- Abstract要約: 状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
- 参考スコア(独自算出の注目度): 10.209192169793772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs) have recently demonstrated competitive performance
to transformers at large-scale language modeling benchmarks while achieving
linear time and memory complexity as a function of sequence length. Mamba, a
recently released SSM model, shows impressive performance in both language
modeling and long sequence processing tasks. Simultaneously, mixture-of-expert
(MoE) models have shown remarkable performance while significantly reducing the
compute and latency costs of inference at the expense of a larger memory
footprint. In this paper, we present BlackMamba, a novel architecture that
combines the Mamba SSM with MoE to obtain the benefits of both. We demonstrate
that BlackMamba performs competitively against both Mamba and transformer
baselines, and outperforms in inference and training FLOPs. We fully train and
open-source 340M/1.5B and 630M/2.8B BlackMamba models on 300B tokens of a
custom dataset. We show that BlackMamba inherits and combines both of the
benefits of SSM and MoE architectures, combining linear-complexity generation
from SSM with cheap and fast inference from MoE. We release all weights,
checkpoints, and inference code open-source. Inference code at:
https://github.com/Zyphra/BlackMamba
- Abstract(参考訳): 状態空間モデル(ssms)は最近、大規模な言語モデリングベンチマークでトランスフォーマーの競合性能を実証し、シーケンス長の関数として線形時間とメモリ複雑性を達成している。
最近リリースされたSSMモデルであるMambaは、言語モデリングと長いシーケンス処理の両方で素晴らしいパフォーマンスを示している。
同時に、mixed-of-expert(moe)モデルは、より大きなメモリフットプリントを犠牲にして推論の計算コストとレイテンシコストを大幅に削減しながら、驚くべきパフォーマンスを示している。
本稿では,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaについて述べる。
我々は,BlackMambaがマンバベースラインとトランスフォーマーベースラインの両方に対して競争力を発揮することを示した。
カスタムデータセットの300Bトークン上で,340M/1.5Bと630M/2.8BのBlackMambaモデルを完全にトレーニングし,オープンソースにしています。
我々はBlackMambaがSSMとMoEアーキテクチャの両方の利点を継承し結合し、SSMからの線形複雑度生成とMoEからの安価かつ高速な推論を組み合わせたことを示す。
すべての重み、チェックポイント、推論コードをオープンソースでリリースしています。
推論コード: https://github.com/zyphra/blackmamba
関連論文リスト
- MambaMIL: Enhancing Long Sequence Modeling with Sequence Reordering in
Computational Pathology [10.933433327636918]
MIL(Multiple Instance Learning)は、WSI(Whole Slide Images)内の識別的特徴表現を計算病理学で抽出する主要なパラダイムとして登場した。
本稿では,線形複雑度を持つ長周期モデリングのために,Selective Scan Space State Sequential Model(Mamba)をMIL(Multiple Instance Learning)に組み込む。
提案するフレームワークは,最先端のMIL手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-03-11T15:17:25Z) - LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image
Segmentation [10.563051220050035]
本稿では,軽量なフレームワークとして,Mamba と UNet を統合した Lightweight Mamba UNet (LightM-UNet) を紹介する。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
論文 参考訳(メタデータ) (2024-03-08T12:07:42Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State
Space Models [58.39336492765728]
がん診断のゴールドスタンダードである病理診断は、TransformerとMIL(Multiple Case Learning)フレームワークを併用して、全スライド画像(WSI)を用いて、優れたパフォーマンスを実現している。
選択的構造化状態空間モデル(Mamba)とMILとの協調によるWSI分類のためのMamMILフレームワークを提案する。
具体的には、マンバが一方向一次元(一次元)シーケンスモデリングしか行えないという問題を解決するため、双方向状態空間モデルと2次元コンテキスト認識ブロックを革新的に導入する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [76.21293341906674]
基本モデルの開発により、赤外線小目標検出(ISTD)は大きな進歩を遂げた。
効率的なISTDのためのMamba-in-Mamba (MiM-ISTD) 構造を調整する。
NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - The Hidden Attention of Mamba Models [61.25846109294293]
Mamba層は効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点により、トランスの自己注意層と基礎となるメカニズムを比較することができる。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [61.93962505128706]
本稿では,大域的モデリングと線形複雑度を考慮したフレームワークであるPointMambaを提案する。
組込み点パッチを入力として,SSMのグローバルモデリング能力を高めるための並べ替え戦略を提案する。
実験の結果,提案したPointMambaは,異なるポイントクラウド分析データセット上で,トランスフォーマーをベースとした性能よりも優れていた。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - MambaByte: Token-free Selective State Space Model [77.13933962001666]
MambaByteは、Mamba状態空間モデルのトークンフリー適応である。
我々は、MambaByteが最先端のサブワードトランスフォーマーと競合し、さらに上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image
Segmentation [17.676472608152704]
我々は,新しい3次元医用画像textbfSegmentation textbfMambaモデルであるSegMambaを紹介した。
SegMambaは、状態空間モデルの観点から、全ボリューム特徴モデリングに優れています。
BraTS2023データセットの実験では、SegMambaの有効性と効率が示されている。
論文 参考訳(メタデータ) (2024-01-24T16:17:23Z) - MoE-Mamba: Efficient Selective State Space Models with Mixture of
Experts [4.293771840782942]
状態空間モデル(SSM)は、シーケンシャルモデリングの分野において真剣な競争者となっている。
MoEは、最近の最先端のオープンモデルを含むトランスフォーマーベースの大規模言語モデルを大幅に改善した。
スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。
論文 参考訳(メタデータ) (2024-01-08T18:35:07Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。