論文の概要: Mamba State-Space Models Can Be Strong Downstream Learners
- arxiv url: http://arxiv.org/abs/2406.00209v1
- Date: Fri, 31 May 2024 21:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:13:57.181298
- Title: Mamba State-Space Models Can Be Strong Downstream Learners
- Title(参考訳): Mamba State-Space Modelsは強力な下流学習者になれる
- Authors: John T. Halloran, Manbir Gulati, Paul F. Roysdon,
- Abstract要約: マンバ状態空間モデル(SSM)は、最近様々なタスクにおいて最先端(SLLM)を上回っている。
混合精度(MPFT)と微細チューニング(PEFT)は低評価である。
我々は,MPFTとPEFTを組み合わせることで,最大で毎秒215倍,メモリあたり65.5%のトークンを削減できることを示した。
- 参考スコア(独自算出の注目度): 1.6385815610837167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mamba state-space models (SSMs) have recently outperformed state-of-the-art (SOTA) Transformer large language models (LLMs) in various tasks and been widely adapted. However, Mamba's downstream learning capabilities remain either unexplored$\unicode{x2013}$e.g., mixed-precision (MPFT) and parameter-efficient fine-tuning (PEFT)--or under-evaluated$\unicode{x2013}$e.g., in-context learning (ICL). For the latter, recent works reported Mamba's ICL rivals SOTA Transformer LLMs using non-standard benchmarks. In contrast, we show that on standard benchmarks, pretrained Mamba models achieve only 38% of the ICL performance improvements (over zero-shot) of comparable Transformers. Enabling MPFT and PEFT in Mamba architectures is challenging due to recurrent dynamics and highly customized CUDA kernels, respectively. However, we prove that Mamba's recurrent dynamics are robust to small input changes using dynamical systems theory. Empirically, we show that performance changes in Mamba's inference and fine-tuning due to mixed-precision align with Transformer LLMs. Furthermore, we show that targeting key memory buffers in Mamba's customized CUDA kernels for low-rank adaptation regularizes SSM parameters, thus achieving parameter efficiency while retaining speedups. We show that combining MPFT and PEFT enables up to 2.15 times more tokens-per-second and 65.5% reduced per-token-memory compared to full Mamba fine-tuning, while achieving up to 81.5% of the ICL performance improvements (over zero-shot) of comparably fine-tuned Transformers.
- Abstract(参考訳): Mamba State-space Model (SSM) は、最近様々なタスクにおいて、SOTA (State-of-the-art) の変換言語モデル (LLM) よりも優れており、広く採用されている。
しかし、Mambaの下流学習能力は、探索されていない$\unicode{x2013}$e g、混合精度(MPFT)、パラメータ効率の微調整(PEFT)、または未評価$\unicode{x2013}$e g、インコンテキスト学習(ICL)のいずれかである。
後者については、最近の研究で、マンバのICLは標準ではないベンチマークを用いてSOTA Transformer LLMと競合していると報告されている。
対照的に、標準ベンチマークでは、トレーニング済みのMambaモデルは、同等のトランスフォーマーのICL性能改善(ゼロショット以上)の38%しか達成していない。
Mamba アーキテクチャにおける MPFT と PEFT の実装は,それぞれ再帰的な動的特性と高度にカスタマイズされた CUDA カーネルにより困難である。
しかし、マンバの繰り返し力学は力学系理論を用いて小さな入力変化に対して堅牢であることを示す。
実験により,Transformer LLMとの混合精度整合によるマンバ推定と微調整の性能変化が示された。
さらに、低ランク適応のためのMambaのカスタマイズされたCUDAカーネルにおけるキーメモリバッファのターゲットは、SSMパラメータを正規化し、スピードアップを維持しながらパラメータ効率が向上することを示す。
我々は,MPFTとPEFTを組み合わせることで,最大2.15倍のトークン/秒,65.5%のトークン/トークン/メモリ削減が可能であり,また,互換性のある微調整トランスのICL性能改善(ゼロショット以上)を最大81.5%達成できることを示した。
関連論文リスト
- MaIL: Improving Imitation Learning with Mamba [30.96458274130313]
Mamba Imitation Learning (MaIL)は、最先端(SoTA)トランスフォーマーポリシーに代わる計算効率の良い代替手段を提供する、新しい模倣学習アーキテクチャである。
Mambaは、Transformersに対するSSMやライバルのパフォーマンスを大幅に改善し、ILポリシーの魅力的な代替品として位置づけている。
論文 参考訳(メタデータ) (2024-06-12T14:01:12Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - MambaVC: Learned Visual Compression with Selective State Spaces [74.29217829932895]
本稿では,SSMに基づくシンプルで強力で効率的な圧縮ネットワークであるMambaVCを紹介する。
MambaVC は2次元選択的走査 (2DSS) モジュールを備えた視覚状態空間 (VSS) ブロックを各ダウンサンプリング後の非線形活性化関数として開発する。
圧縮ベンチマークデータセットでは、MambaVCはより低い計算とメモリオーバーヘッドでより優れたレート歪み性能を達成する。
論文 参考訳(メタデータ) (2024-05-24T10:24:30Z) - UltraLight VM-UNet: Parallel Vision Mamba Significantly Reduces Parameters for Skin Lesion Segmentation [2.0555786400946134]
ステートスペースモデル(SSM)は、従来のCNNやTransformerと強力な競合関係にある。
そこで我々はUltraLight Vision Mamba UNet (UltraLight VM-UNet)を提案する。
具体的には、PVM Layer という名前のVision Mamba を並列処理する手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T08:03:42Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - MoE-Mamba: Efficient Selective State Space Models with Mixture of
Experts [4.293771840782942]
状態空間モデル(SSM)は、シーケンシャルモデリングの分野において真剣な競争者となっている。
MoEは、最近の最先端のオープンモデルを含むトランスフォーマーベースの大規模言語モデルを大幅に改善した。
スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。
論文 参考訳(メタデータ) (2024-01-08T18:35:07Z) - MPCFormer: fast, performant and private Transformer inference with MPC [64.23599808800738]
セキュアなマルチパーティ計算(MPC)と知識蒸留(KD)を用いたフレームワークMPCFORMERを設計する。
MPCFORMERは入力モデルに類似したML性能を実現しつつ、MPC設定でのTransformerモデル推論を著しく高速化する。
MPCFORMER は ROBERTABASE や BERTLarge などの大型モデルのような異なる訓練されたトランスフォーマーウェイトで有効であることを示す。
論文 参考訳(メタデータ) (2022-11-02T19:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。