論文の概要: Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
- arxiv url: http://arxiv.org/abs/2403.14520v2
- Date: Fri, 22 Mar 2024 16:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 11:38:56.929541
- Title: Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
- Title(参考訳): Cobra: 効率的な推論のためのマルチモーダル大言語モデルへのMambaの拡張
- Authors: Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang,
- Abstract要約: 線形計算複雑性マルチモーダル言語モデル(MLLM)であるCobraを提案する。
特に、Cobraは効率的なMamba言語モデルを視覚的モダリティに統合する。
プロジェクトページは、https://sites.google.com/view/cobravlm.com/com/com/cobravlm.comで公開されている。
- 参考スコア(独自算出の注目度): 38.777236272048874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.
- Abstract(参考訳): 近年,多モーダル大規模言語モデル (MLLM) の様々な分野への応用が目覚ましい成功を収めている。
しかし、多くの下流タスクの基礎モデルとして、現在のMLLMは2次計算の複雑さの少ないよく知られたトランスフォーマーネットワークで構成されている。
このような基本モデルの効率を改善するために,線形計算複雑性MLLMであるCobraを提案する。
特に、Cobraは効率的なMamba言語モデルを視覚的モダリティに統合する。
さらに,効率的なマルチモーダルマンバを作成するための様々なモーダル融合スキームを探索し,検討する。
大規模実験により,(1)コブラの線形逐次モデルにより,コブラの高速な性能が向上し,計算効率が向上した現状,例えば,LLaVA-Phi,TinyLLaVA,MobileVLM v2が得られた。
2) 視覚錯覚や空間的関係判断を克服する上で, クローズドセットの課題予測ベンチマークの結果は良好であった。
(3) 特に、Cobraはパラメータの約43%でLLaVAに匹敵するパフォーマンスを実現している。
我々は,Cobraのすべてのコードをオープンソースにし,提案手法がMLLMにおける複雑性問題の今後の研究を促進することを期待する。
プロジェクトページは、https://sites.google.com/view/cobravlm.com/com/com/cobravlm.comで公開されている。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。
Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文 参考訳(メタデータ) (2024-11-18T18:59:15Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 [4.30176340351235]
本稿では,マルチモーダル言語モデルであるML-Mambaを紹介する。
トランスフォーマーベースのバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的走査機構を統合する方法を模索する。
論文 参考訳(メタデータ) (2024-07-29T09:38:15Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。