Fugu-MT 論文翻訳(概要): MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

論文の概要: MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

arxiv url: http://arxiv.org/abs/2401.04081v1
Date: Mon, 8 Jan 2024 18:35:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 13:54:23.894539
Title: MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts
Title（参考訳）: moe-mamba: 専門家の混合による効率的な選択状態空間モデル
Authors: Maciej Pi\'oro, Kamil Ciebiera, Krystian Kr\'ol, Jan Ludziejewski, Sebastian Jaszczur
Abstract要約: 状態空間モデル(SSM)はシーケンシャルなモデリングの分野において真剣な競争者となり、トランスフォーマーの優位性に挑戦している。スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。本稿では,SSMをベースとした最新のモデルであるMambaについて紹介する。
参考スコア（独自算出の注目度）: 0.5247058439149641
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State Space Models (SSMs) have become serious contenders in the field of sequential modeling, challenging the dominance of Transformers. At the same time, Mixture of Experts (MoE) has significantly improved Transformer-based LLMs, including recent state-of-the-art open-source models. We propose that to unlock the potential of SSMs for scaling, they should be combined with MoE. We showcase this on Mamba, a recent SSM-based model that achieves remarkable, Transformer-like performance. Our model, MoE-Mamba, outperforms both Mamba and Transformer-MoE. In particular, MoE-Mamba reaches the same performance as Mamba in 2.2x less training steps while preserving the inference performance gains of Mamba against the Transformer.
Abstract（参考訳）: 状態空間モデル(ssm)はシーケンシャルモデリングの分野で真剣な競争相手となり、トランスフォーマーの支配に挑戦している。同時に、Mixture of Experts (MoE)は、最新の最先端オープンソースモデルを含むTransformerベースのLLMを大幅に改善した。スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。本稿では,SSMをベースとした最新のモデルであるMambaについて紹介する。私たちのモデルであるMoE-Mambaは、MambaとTransformer-MoEの両方より優れています。特に、MoE-Mambaは2.2倍のトレーニングステップでMambaと同じパフォーマンスを達成しつつ、MambaのTransformerに対する推論性能向上を保っている。

関連論文リスト

Differential Mamba [17.835292722130628]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文参考訳（メタデータ） (2025-07-08T17:30:14Z)
Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。 Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文参考訳（メタデータ） (2024-11-18T18:59:15Z)
MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。 Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文参考訳（メタデータ） (2024-11-06T11:57:55Z)
ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文参考訳（メタデータ） (2024-08-28T02:47:27Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
Snakes and Ladders: Two Steps Up for VideoMamba [10.954210339694841]
本稿では,自尊心とマンバの差異を理論的に分析する。本稿では, VideoMamba を1.6-2.8%, 1.1-1.9% で上回る VideoMambaPro モデルを提案する。我々の2つの解決策は、Vision Mambaモデルの最近の進歩であり、将来のモデルにさらなる改善をもたらす可能性が高い。
論文参考訳（メタデータ） (2024-06-27T08:45:31Z)
An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文参考訳（メタデータ） (2024-06-12T05:25:15Z)
Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文参考訳（メタデータ） (2024-05-26T15:31:09Z)
MambaOut: Do We Really Need Mamba for Vision? [70.60495392198686]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねることで,MambaOutという名前の一連のモデルを構築する。
論文参考訳（メタデータ） (2024-05-13T17:59:56Z)
CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。 Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文参考訳（メタデータ） (2024-04-30T09:40:07Z)
BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。 MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文参考訳（メタデータ） (2024-02-01T07:15:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。