Fugu-MT 論文翻訳(概要): ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2

論文の概要: ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2

arxiv url: http://arxiv.org/abs/2407.19832v3
Date: Wed, 21 Aug 2024 09:52:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 21:46:26.847790
Title: ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2
Title（参考訳）: ML-Mamba:Mamba-2を利用したマルチモーダル大言語モデル
Authors: Wenjun Huang, Jiakai Pan, Jiahao Tang, Yanyu Ding, Yifei Xing, Yuhe Wang, Zhengzhuo Wang, Jianguo Hu,
Abstract要約: 本稿では,マルチモーダル言語モデルであるML-Mambaを紹介する。トランスフォーマーベースのバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的走査機構を統合する方法を模索する。
参考スコア（独自算出の注目度）: 4.30176340351235
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) have attracted much attention for their multifunctionality. However, traditional Transformer architectures incur significant overhead due to their secondary computational complexity. To address this issue, we introduce ML-Mamba, a multimodal language model, which utilizes the latest and efficient Mamba-2 model for inference. Mamba-2 is known for its linear scalability and fast processing of long sequences. We replace the Transformer-based backbone with a pre-trained Mamba-2 model and explore methods for integrating 2D visual selective scanning mechanisms into multimodal learning while also trying various visual encoders and Mamba-2 model variants. Our extensive experiments in various multimodal benchmark tests demonstrate the competitive performance of ML-Mamba and highlight the potential of state space models in multimodal tasks. The experimental results show that: (1) we empirically explore how to effectively apply the 2D vision selective scan mechanism for multimodal learning. We propose a novel multimodal connector called the Mamba-2 Scan Connector (MSC), which enhances representational capabilities. (2) ML-Mamba achieves performance comparable to state-of-the-art methods such as TinyLaVA and MobileVLM v2 through its linear sequential modeling while faster inference speed; (3) Compared to multimodal models utilizing Mamba-1, the Mamba-2-based ML-Mamba exhibits superior inference performance and effectiveness.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)はその多機能性に対して多くの注目を集めている。しかし、従来のTransformerアーキテクチャは二次計算の複雑さのために大きなオーバーヘッドを発生させる。この問題に対処するために,ML-Mambaを導入した。ML-Mambaは,最新の効率的なMamba-2モデルを用いて推論を行うマルチモーダル言語モデルである。 Mamba-2はその線形スケーラビリティと長いシーケンスの高速処理で知られている。トランスフォーマーをベースとしたバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的スキャン機構を統合する方法を検討するとともに、様々なビジュアルエンコーダやMamba-2モデルの変種を試す。各種マルチモーダルベンチマーク実験において,ML-Mambaの競合性能を実証し,マルチモーダルタスクにおける状態空間モデルの可能性を明らかにする。 1)マルチモーダル学習に2次元視覚選択走査機構を効果的に適用する方法を実証的に検討した。本稿では,Mamba-2 Scan Connector (MSC) と呼ばれる新しいマルチモーダルコネクタを提案する。 2) ML-Mamba は,TinyLaVA や MobileVLM v2 などの最先端手法に匹敵する性能を実現し,その線形逐次モデリングを高速な推論速度で実現し,また,Mamba-1 を用いたマルチモーダルモデルと比較すると,Mamba-2 ベースの ML-Mamba の方が優れた推論性能と有効性を示す。

関連論文リスト

Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
Mamba-Adaptor: State Space Model Adaptor for Visual Recognition [5.282318851833395]
本稿では,Mambaモデルに対する視覚タスクアダプタ(Adaptor-T)とアダプタ-S(Adaptor-S)の2つの機能モジュールからなる視覚タスクアダプタ(Adaptor)を開発する。私たちのMamba-AdaptorはImageNetとCOCOベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-05-19T04:14:33Z)
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models [36.0400717590138]
線形構造に基づく最初のマルチモーダル生成モデルであるOmniMambaを提案する。テキストと画像の両方を、統合された次世代の予測パラダイムで生成する。 JanusFlowと競合し、ベンチマークでShow-oを上回っている。
論文参考訳（メタデータ） (2025-03-11T17:59:46Z)
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文参考訳（メタデータ） (2025-02-21T01:22:01Z)
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文参考訳（メタデータ） (2024-12-21T13:43:51Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。 Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文参考訳（メタデータ） (2024-11-18T18:59:15Z)
EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文参考訳（メタデータ） (2024-10-08T11:41:55Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文参考訳（メタデータ） (2024-05-26T15:31:09Z)
Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference [38.777236272048874]
線形計算複雑性マルチモーダル言語モデル(MLLM)であるCobraを提案する。特に、Cobraは効率的なMamba言語モデルを視覚的モダリティに統合する。プロジェクトページは、https://sites.google.com/view/cobravlm.com/com/com/cobravlm.comで公開されている。
論文参考訳（メタデータ） (2024-03-21T16:17:57Z)
VL-Mamba: Exploring State Space Models for Multimodal Learning [22.701028299912398]
本研究では,状態空間モデルに基づく多モーダル大規模言語モデルであるVL-Mambaを提案する。具体的には、まず、LLamaやVicunaのようなトランスフォーマーベースのバックボーン言語モデルを、事前訓練されたMamba言語モデルに置き換える。
論文参考訳（メタデータ） (2024-03-20T13:48:50Z)
The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。このようなモデルを注意駆動モデルとみなすことができる。この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文参考訳（メタデータ） (2024-03-03T18:58:21Z)
Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。 Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-05T18:58:11Z)
Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能するこの研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-02-05T16:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。