論文の概要: MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling
- arxiv url: http://arxiv.org/abs/2503.13440v2
- Date: Tue, 18 Mar 2025 07:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 10:31:38.907223
- Title: MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling
- Title(参考訳): MaTVLM:効率的な視覚・言語モデリングのためのハイブリッド・マンバ変換器
- Authors: Yingyue Li, Bencheng Liao, Wenyu Liu, Xinggang Wang,
- Abstract要約: 本研究では, トランスデコーダ層の一部を, Mamba-2層で事前訓練したVLMに置換することで, ハイブリッドモデルMATVLMを提案する。
予訓練VLMを教師モデルとして,単段蒸留法を用いて知識をMATVLMに伝達する。
注目すべきは、MaTVLMは教師モデルよりも最大3.6倍高速な推論を実現し、GPUメモリの消費を27.5%削減したことである。
- 参考スコア(独自算出の注目度): 36.527618275553955
- License:
- Abstract: With the advancement of RNN models with linear complexity, the quadratic complexity challenge of transformers has the potential to be overcome. Notably, the emerging Mamba-2 has demonstrated competitive performance, bridging the gap between RNN models and transformers. However, due to sequential processing and vanishing gradients, RNN models struggle to capture long-range dependencies, limiting contextual understanding. This results in slow convergence, high resource demands, and poor performance on downstream understanding and complex reasoning tasks. In this work, we present a hybrid model MaTVLM by substituting a portion of the transformer decoder layers in a pre-trained VLM with Mamba-2 layers. Leveraging the inherent relationship between attention and Mamba-2, we initialize Mamba-2 with corresponding attention weights to accelerate convergence. Subsequently, we employ a single-stage distillation process, using the pre-trained VLM as the teacher model to transfer knowledge to the MaTVLM, further enhancing convergence speed and performance. Furthermore, we investigate the impact of differential distillation loss within our training framework. We evaluate the MaTVLM on multiple benchmarks, demonstrating competitive performance against the teacher model and existing VLMs while surpassing both Mamba-based VLMs and models of comparable parameter scales. Remarkably, the MaTVLM achieves up to 3.6x faster inference than the teacher model while reducing GPU memory consumption by 27.5%, all without compromising performance. Code and models are released at http://github.com/hustvl/MaTVLM.
- Abstract(参考訳): 線形複雑度を持つRNNモデルの進歩により、変圧器の二次的複雑性は克服される可能性がある。
特に、新しいMamba-2は競争力を発揮し、RNNモデルとトランスフォーマーのギャップを埋めている。
しかし、逐次処理と勾配の消失により、RNNモデルはコンテキスト理解を制限する長距離依存を捉えるのに苦労する。
これにより、収束が遅くなり、リソースの要求が高くなり、下流の理解や複雑な推論タスクの性能が低下する。
本研究では, トランスデコーダ層の一部を, Mamba-2層で事前訓練したVLMに置換することで, ハイブリッドモデルMATVLMを提案する。
注意関係とマンバ2の関係を利用して,マンバ2を対応する注意重みで初期化し,収束を加速する。
次に,教師モデルとして事前学習VLMを用いた単段蒸留法を用いて,知識をMATVLMに伝達し,コンバージェンス速度と性能をさらに向上させる。
さらに, トレーニング枠組みにおける蒸留損失の差分の影響について検討した。
複数のベンチマークでMaTVLMを評価し,MambaベースのVLMと同等のパラメータスケールのモデルの両方を上回りながら,教師モデルと既存VLMとの競合性能を実証した。
MaTVLMは教師モデルよりも最大3.6倍高速な推論を実現し、GPUメモリの消費を27.5%削減した。
コードとモデルはhttp://github.com/hustvl/MaTVLMで公開されている。
関連論文リスト
- Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation [36.44678935063189]
mmMambaは、線形複雑でネイティブなマルチモーダル状態空間モデルを開発するためのフレームワークである。
提案手法は,訓練されたデコーダのみのMLLMを線形複雑度アーキテクチャへ直接変換することを可能にする。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference [8.792650582656913]
M2R2(Mixture of Multi-rate Residuals)は,残差速度を動的に変調して早期アライメントを改善するフレームワークである。
M2R2は最先端の距離ベースの戦略を超え、生成品質とスピードアップのバランスをとる。
自己投機的復号化では、M2R2はMT-Benchで最大2.8倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-04T06:13:52Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [18.958138693220704]
そこで我々は,Mixture-of-Depths (MoD) 機構を利用して,効率的なマルチモーダル大言語モデル(MLLM)を構築することを提案する。
我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。
我々のモデルであるp-MoDは、ベースラインモデルの性能にマッチまたは超え、推論時に55.6%のTFLOPと53.8%のKVキャッシュストレージ、トレーニング時に77.7%のGPU時間しか持たない。
論文 参考訳(メタデータ) (2024-12-05T18:58:03Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。