論文の概要: Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity
- arxiv url: http://arxiv.org/abs/2501.16295v1
- Date: Mon, 27 Jan 2025 18:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:27.193959
- Title: Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity
- Title(参考訳): Mixture-of-Mamba: Modality-Aware Sparsityによるマルチモーダル状態空間モデルの強化
- Authors: Weixin Liang, Junhong Shen, Genghan Zhang, Ning Dong, Luke Zettlemoyer, Lili Yu,
- Abstract要約: 状態空間モデル(SSM)は、シーケンシャルモデリングのためのトランスフォーマーの効率的な代替手段として登場した。
本稿では,Mambaブロックのモダリティ特異的パラメータ化により,モダリティを意識した疎結合を実現する新しいSSMアーキテクチャを提案する。
マルチモーダル事前学習環境におけるMixture-of-Mambaの評価を行った。
- 参考スコア(独自算出の注目度): 56.0251572416922
- License:
- Abstract: State Space Models (SSMs) have emerged as efficient alternatives to Transformers for sequential modeling, but their inability to leverage modality-specific features limits their performance in multi-modal pretraining. Here, we propose Mixture-of-Mamba, a novel SSM architecture that introduces modality-aware sparsity through modality-specific parameterization of the Mamba block. Building on Mixture-of-Transformers (W. Liang et al. arXiv:2411.04996; 2024), we extend the benefits of modality-aware sparsity to SSMs while preserving their computational efficiency. We evaluate Mixture-of-Mamba across three multi-modal pretraining settings: Transfusion (interleaved text and continuous image tokens with diffusion loss), Chameleon (interleaved text and discrete image tokens), and an extended three-modality framework incorporating speech. Mixture-of-Mamba consistently reaches the same loss values at earlier training steps with significantly reduced computational costs. In the Transfusion setting, Mixture-of-Mamba achieves equivalent image loss using only 34.76% of the training FLOPs at the 1.4B scale. In the Chameleon setting, Mixture-of-Mamba reaches similar image loss with just 42.50% of the FLOPs at the 1.4B scale, and similar text loss with just 65.40% of the FLOPs. In the three-modality setting, MoM matches speech loss at 24.80% of the FLOPs at the 1.4B scale. Our ablation study highlights the synergistic effects of decoupling projection components, where joint decoupling yields greater gains than individual modifications. These results establish modality-aware sparsity as a versatile and effective design principle, extending its impact from Transformers to SSMs and setting new benchmarks in multi-modal pretraining. Our code can be accessed at https://github.com/Weixin-Liang/Mixture-of-Mamba
- Abstract(参考訳): 状態空間モデル(SSM)はシーケンシャルモデリングのためのトランスフォーマーの効率的な代替手段として登場したが、モダリティ固有の特徴を活用できないため、マルチモーダルプレトレーニングでは性能が制限される。
本稿では,Mixture-of-Mambaという新しいSSMアーキテクチャを提案する。
混合変換器(W. Liang et al arXiv:2411.04996; 2024)上に構築することで、計算効率を保ちながら、モダリティ認識の空間性をSSMに拡張する。
筆者らは,3つのマルチモーダル事前学習環境 – 輸血(インターリーブテキストと拡散損失を伴う連続画像トークン), チャメレオン(インターリーブテキストと離散画像トークン), 音声を取り入れた拡張3モーダル・フレームワーク – について,Mixture-of-Mambaの評価を行った。
混合マンバは、計算コストを大幅に削減した初期の訓練段階において、常に同じ損失値に達する。
トランスフュージョン設定では、Mixture-of-Mambaは、1.4BスケールでのトレーニングFLOPの34.76%しか使用せず、同等の画像損失を達成している。
Chameleon設定では、Mixture-of-Mambaは1.4BスケールでのFLOPの42.50%、FLOPの65.40%で同様の画像損失に達した。
3つのモード設定では、MoM は 1.4B スケールで FLOP の 24.80% の音声損失と一致している。
我々のアブレーション研究は, 連成連成連成連成連成分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分担分
これらの結果から,トランスフォーマーからSSMへのインパクトを拡大し,マルチモーダル事前学習における新しいベンチマークを設定できる。
私たちのコードはhttps://github.com/Weixin-Liang/Mixture-of-Mambaでアクセスできます。
関連論文リスト
- MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba [11.176993272867396]
Mambaはその線形複雑性のためにコンピュータビジョンに大きな可能性を示している。
既存の軽量なMambaベースのバックボーンは、ConvolutionやTransformerベースのメソッドにマッチするパフォーマンスを示すことはできない。
モバイルフレンドリーなコンボリューションと効率的なLaplaceミキサーを組み合わせることで、TinyViMと呼ばれる小さなハイブリッドビジョンを構築できる。
論文 参考訳(メタデータ) (2024-11-26T14:34:36Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [111.97026994761254]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。
MoTはモデルの非埋め込みパラメータをモダリティで分離する。
複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (2024-11-07T18:59:06Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [95.26323548734692]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。
MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文 参考訳(メタデータ) (2024-07-31T17:46:51Z) - Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。
我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。
また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。