論文の概要: MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices
- arxiv url: http://arxiv.org/abs/2312.16886v2
- Date: Sat, 30 Dec 2023 04:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 19:05:03.822823
- Title: MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices
- Title(参考訳): MobileVLM : モバイルデバイスのための高速で強力でオープンな視覚言語アシスタント
- Authors: Xiangxiang Chu and Limeng Qiao and Xinyang Lin and Shuang Xu and Yang
Yang and Yiming Hu and Fei Wei and Xinyu Zhang and Bo Zhang and Xiaolin Wei
and Chunhua Shen
- Abstract要約: MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
- 参考スコア(独自算出の注目度): 73.46317110474064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MobileVLM, a competent multimodal vision language model (MMVLM)
targeted to run on mobile devices. It is an amalgamation of a myriad of
architectural designs and techniques that are mobile-oriented, which comprises
a set of language models at the scale of 1.4B and 2.7B parameters, trained from
scratch, a multimodal vision model that is pre-trained in the CLIP fashion,
cross-modality interaction via an efficient projector. We evaluate MobileVLM on
several typical VLM benchmarks. Our models demonstrate on par performance
compared with a few much larger models. More importantly, we measure the
inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin
GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens
per second, respectively. Our code will be made available at:
https://github.com/Meituan-AutoML/MobileVLM.
- Abstract(参考訳): モバイル端末で動作する多モード視覚言語モデル(MMVLM)であるMobileVLMを提案する。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデル、効率的なプロジェクタによる相互モダリティ相互作用を含む、1.4Bと2.7Bのスケールの言語モデルからなる、モバイル指向の無数のアーキテクチャ設計と技法の融合である。
いくつかの典型的なVLMベンチマークでMobileVLMを評価する。
私たちのモデルは、より大規模なモデルと比較して、同等のパフォーマンスを示します。
さらに、Qualcomm Snapdragon 888 CPUとNVIDIA Jeston Orin GPUの両方で推論速度を測定し、それぞれ21.5トークンと65.3トークンの最先端のパフォーマンスを得る。
私たちのコードは、https://github.com/Meituan-AutoML/MobileVLMで利用可能になります。
関連論文リスト
- BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices [35.44626025003408]
本稿では,MLLMのモバイルプラットフォームへの効率的なデプロイに適した,アルゴリズムとシステムの共同設計手法であるBlueLM-V-3Bを提案する。
小型サイズ: BlueLM-V-3Bは2.7Bパラメータを持つ言語モデルと400Mパラメータを持つエンコーダビジョンを備えている。
高速: BlueLM-V-3Bは、MediaTek Dimensity 9300プロセッサの24.4トークン/秒で4ビットLLMの量子化を実現している。
論文 参考訳(メタデータ) (2024-11-16T00:14:51Z) - H2OVL-Mississippi Vision Language Models Technical Report [4.070560738863018]
H2OVL-Mississippiは3700万の画像テキスト対で訓練された2組の視覚言語モデルである。
H2OVL-Mississippi-0.8Bは、テキスト認識に特化した0.8億のパラメータを持つ小さなモデルである。
H2OVL-Mississippi-2Bは、一般的なユースケースのための20億のパラメータモデルであり、非常に競争力のある指標を示しています。
論文 参考訳(メタデータ) (2024-10-17T14:46:34Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - CogVLM2: Visual Language Models for Image and Video Understanding [69.361109860391]
画像と映像の理解のための新しいビジュアル言語モデルであるCagVLM2ファミリを提案する。
イメージ理解モデルとして、CogVLM2は、トレーニング前とトレーニング後の両方でトレーニングレシピを改善したビジュアルエキスパートアーキテクチャを継承する。
ビデオ理解モデルとして、CogVLM2-Videoはマルチフレーム入力とタイムスタンプを統合し、時間的グラウンドの自動構築を提案する。
論文 参考訳(メタデータ) (2024-08-29T12:59:12Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model [7.082567506213992]
本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。
コンシューマGPUサーバへの効率的なデプロイのために設計されている。
論文 参考訳(メタデータ) (2024-05-15T09:47:59Z) - MobileVLM V2: Faster and Stronger Baseline for Vision Language Model [73.74838586081385]
我々は、MobileVLM上で大幅に改善された視覚言語モデルのファミリーであるMobileVLM V2を紹介する。
MobileVLM V2 1.7Bは、標準のVLMベンチマークにおいて、3Bスケールでのはるかに大きなVLMよりも優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-06T07:16:36Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。