論文の概要: Bi-Mamba: Towards Accurate 1-Bit State Space Models
- arxiv url: http://arxiv.org/abs/2411.11843v2
- Date: Thu, 23 Oct 2025 09:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:02.76381
- Title: Bi-Mamba: Towards Accurate 1-Bit State Space Models
- Title(参考訳): Bi-Mamba: 正確な1ビット状態空間モデルを目指して
- Authors: Shengkun Tang, Liqun Ma, Haonan Li, Mingjie Sun, Zhiqiang Shen,
- Abstract要約: $textttBi-Mamba$は、より効率的な大規模言語モデル(LLM)を実現するために設計されたスケーラブルで強力な1ビットのMambaアーキテクチャである。
$textttBi-Mamba$モデルは、自己回帰蒸留損失を使用して標準LLMスケールデータセットのスクラッチからトレーニングされる。
言語モデリングベンチマークの実験では、$textttBi-Mamba$は、その完全な精度に匹敵するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 45.70829795551893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The typical Selective State-Space Model (SSM) used in Mamba addresses several limitations of Transformers, such as the quadratic computational complexity with respect to sequence length and the significant memory requirements during inference due to the key-value (KV) cache. However, the increasing size of Mamba models continues to pose challenges for training and deployment, particularly due to their substantial computational demands during both training and inference. In this work, we introduce $\texttt{Bi-Mamba}$, a scalable and powerful 1-bit Mamba architecture designed to enable more efficient large language models (LLMs), with model sizes of 780M, 1.3B, and 2.7B parameters. $\texttt{Bi-Mamba}$ models are trained from scratch on a standard LLM-scale dataset using an autoregressive distillation loss. Extensive experiments on language modeling benchmarks demonstrate that $\texttt{Bi-Mamba}$ achieves performance comparable to its full-precision (FP16 or BF16) counterparts, while outperforming post-training binarization (PTB) Mamba and binarization-aware training (BAT) Transformer baselines. Moreover, $\texttt{Bi-Mamba}$ drastically reduces memory usage and computational cost compared to the original Mamba. Our work pioneers a new line of linear-complexity LLMs under low-bit representation and provides the way for the design of specialized hardware optimized for efficient 1-bit Mamba-based models. Code and the pre-trained weights are available at https://github.com/Tangshengku/Bi-Mamba.
- Abstract(参考訳): Mambaで使用される典型的な選択的状態空間モデル(SSM)は、シーケンス長に関する2次計算の複雑さやキー値(KV)キャッシュによる推論中の重要なメモリ要求など、トランスフォーマーのいくつかの制限に対処する。
しかしながら、Mambaモデルのサイズが大きくなると、特にトレーニングと推論の双方において、相当な計算要求のために、トレーニングとデプロイメントの課題が生まれ続けている。
In this work, we introduced $\texttt{Bi-Mamba}$, a scalable and powerful 1-bit Mamba architecture designed to enable more efficient large language model (LLMs) with model sizes of 780M, 1.3B, 2.7B parameters。
$\texttt{Bi-Mamba}$モデルは、自己回帰蒸留損失を使用して標準LLMスケールデータセットをスクラッチからトレーニングする。
言語モデリングベンチマークに関する大規模な実験によると、$\texttt{Bi-Mamba}$はフル精度(FP16またはBF16)に匹敵するパフォーマンスを達成し、トレーニング後二項化(PTB)のMambaおよびバイナライズ対応トレーニング(BAT)のベースラインを上回っている。
さらに$\texttt{Bi-Mamba}$は、オリジナルのMambaに比べてメモリ使用量と計算コストを大幅に削減する。
我々の研究は,低ビット表現下での線形複素数 LLM の新たなラインを開拓し,効率的な1ビットマンバモデルに最適化された専用ハードウェアの設計方法を提供する。
コードとトレーニング済みのウェイトはhttps://github.com/Tangshengku/Bi-Mamba.comで公開されている。
関連論文リスト
- Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing [21.15110217419682]
本稿では,HybridEVS RAW画像の効率的な復調を実現するために,軽量なマンバ型バイナリニューラルネットワークを提案する。
Bi-Mambaは全ての射影をバイナライズし、コアSelective Scanを完全精度で保持する。
我々は,BMTNetの性能と計算効率の両面において,定量的かつ定性的な実験を行い,BMTNetの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-20T13:32:27Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 [4.30176340351235]
本稿では,マルチモーダル言語モデルであるML-Mambaを紹介する。
トランスフォーマーベースのバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的走査機構を統合する方法を模索する。
論文 参考訳(メタデータ) (2024-07-29T09:38:15Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。
我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。
また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image
Segmentation [10.563051220050035]
本稿では,軽量なフレームワークとして,Mamba と UNet を統合した Lightweight Mamba UNet (LightM-UNet) を紹介する。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
論文 参考訳(メタデータ) (2024-03-08T12:07:42Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。