論文の概要: Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation
- arxiv url: http://arxiv.org/abs/2502.13145v1
- Date: Tue, 18 Feb 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:09.150548
- Title: Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation
- Title(参考訳): マルチモーダルマンバ:2次-線形蒸留によるデコーダのみのマルチモーダル状態空間モデル
- Authors: Bencheng Liao, Hongyuan Tao, Qian Zhang, Tianheng Cheng, Yingyue Li, Haoran Yin, Wenyu Liu, Xinggang Wang,
- Abstract要約: mmMambaは、線形複雑でネイティブなマルチモーダル状態空間モデルを開発するためのフレームワークである。
提案手法は,訓練されたデコーダのみのMLLMを線形複雑度アーキテクチャへ直接変換することを可能にする。
- 参考スコア(独自算出の注目度): 36.44678935063189
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent Multimodal Large Language Models (MLLMs) have achieved remarkable performance but face deployment challenges due to their quadratic computational complexity, growing Key-Value cache requirements, and reliance on separate vision encoders. We propose mmMamba, a framework for developing linear-complexity native multimodal state space models through progressive distillation from existing MLLMs using moderate academic computational resources. Our approach enables the direct conversion of trained decoder-only MLLMs to linear-complexity architectures without requiring pre-trained RNN-based LLM or vision encoders. We propose an seeding strategy to carve Mamba from trained Transformer and a three-stage distillation recipe, which can effectively transfer the knowledge from Transformer to Mamba while preserving multimodal capabilities. Our method also supports flexible hybrid architectures that combine Transformer and Mamba layers for customizable efficiency-performance trade-offs. Distilled from the Transformer-based decoder-only HoVLE, mmMamba-linear achieves competitive performance against existing linear and quadratic-complexity VLMs, while mmMamba-hybrid further improves performance significantly, approaching HoVLE's capabilities. At 103K tokens, mmMamba-linear demonstrates 20.6$\times$ speedup and 75.8% GPU memory reduction compared to HoVLE, while mmMamba-hybrid achieves 13.5$\times$ speedup and 60.2% memory savings. Code and models are released at https://github.com/hustvl/mmMamba
- Abstract(参考訳): 最近のMLLM(Multimodal Large Language Models)は、2次計算の複雑さ、キーバリューのキャッシュ要件の増大、視覚エンコーダの分離への依存、といった問題に直面している。
中等な学術計算資源を用いた既存のMLLMからの漸進蒸留による線形複雑ネイティブマルチモーダル状態空間モデル構築のためのフレームワークであるmmMambaを提案する。
提案手法は,訓練済みのRNNベースのLLMやビジョンエンコーダを必要とせずに,訓練済みのデコーダのみのMLLMを線形複雑アーキテクチャへ直接変換することを可能にする。
本研究では, マルチモーダル能力を保ちつつ, トランスフォーマーからマンバへの知識伝達を効果的に行うことができる3段階蒸留法を提案する。
また,Transformer 層と Mamba 層を組み合わせたフレキシブルなハイブリッドアーキテクチャもサポートしている。
トランスフォーマーをベースとしたデコーダのみのHoVLEから切り離されたmmMamba-linearは、既存の線形および二次複雑VLMと競合する性能を達成し、mmMamba-hybridはHoVLEの能力にアプローチしてさらに性能を向上する。
103Kトークンでは、mMamba-linearは20.6$\times$スピードアップと75.8%のGPUメモリ削減を示し、mMamba-hybridは13.5$\times$スピードアップと60.2%のメモリ節約を達成した。
コードとモデルはhttps://github.com/hustvl/mmMambaでリリースされる
関連論文リスト
- Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers [38.63270256142439]
State-of-the-the-art transformer-based large multimodal model (LMM)は、1時間のビデオ入力を扱うのに苦労する。
我々は,ビデオトークンを線形複雑にエンコードするために,Mamba-2ブロックを用いたハイブリッドMamba-Transformerモデル(VAMBA)を構築した。
VAMBAは、トレーニングと推論中のGPUメモリ使用量の少なくとも50%削減を実現し、トレーニングステップあたりの速度をほぼ2倍にします。
論文 参考訳(メタデータ) (2025-03-14T16:45:23Z) - OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models [36.0400717590138]
線形構造に基づく最初のマルチモーダル生成モデルであるOmniMambaを提案する。
テキストと画像の両方を、統合された次世代の予測パラダイムで生成する。
JanusFlowと競合し、ベンチマークでShow-oを上回っている。
論文 参考訳(メタデータ) (2025-03-11T17:59:46Z) - TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。
Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文 参考訳(メタデータ) (2024-11-18T18:59:15Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba [0.0]
状態空間モデル(SSM)を用いたシーケンスモデリングは、様々なタスクにおけるトランスフォーマーよりもパフォーマンスが優れていることを示した。
しかし、最先端のSSMであるMambaに基づく決定モデルは、拡張された決定変換器よりも優れた性能を達成できなかった。
本稿では,DMM(Decision MetaMamba)を提案する。
論文 参考訳(メタデータ) (2024-08-20T03:35:28Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 [4.30176340351235]
本稿では,マルチモーダル言語モデルであるML-Mambaを紹介する。
トランスフォーマーベースのバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的走査機構を統合する方法を模索する。
論文 参考訳(メタデータ) (2024-07-29T09:38:15Z) - Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。
我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。
また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。