Fugu-MT 論文翻訳(概要): MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

論文の概要: MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

arxiv url: http://arxiv.org/abs/2312.16886v2
Date: Sat, 30 Dec 2023 04:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 19:05:03.822823
Title: MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices
Title（参考訳）: MobileVLM : モバイルデバイスのための高速で強力でオープンな視覚言語アシスタント
Authors: Xiangxiang Chu and Limeng Qiao and Xinyang Lin and Shuang Xu and Yang Yang and Yiming Hu and Fei Wei and Xinyu Zhang and Bo Zhang and Xiaolin Wei and Chunhua Shen
Abstract要約: MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
参考スコア（独自算出の注目度）: 73.46317110474064
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present MobileVLM, a competent multimodal vision language model (MMVLM) targeted to run on mobile devices. It is an amalgamation of a myriad of architectural designs and techniques that are mobile-oriented, which comprises a set of language models at the scale of 1.4B and 2.7B parameters, trained from scratch, a multimodal vision model that is pre-trained in the CLIP fashion, cross-modality interaction via an efficient projector. We evaluate MobileVLM on several typical VLM benchmarks. Our models demonstrate on par performance compared with a few much larger models. More importantly, we measure the inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens per second, respectively. Our code will be made available at: https://github.com/Meituan-AutoML/MobileVLM.
Abstract（参考訳）: モバイル端末で動作する多モード視覚言語モデル(MMVLM)であるMobileVLMを提案する。これは、CLIP方式で事前訓練されたマルチモーダル視覚モデル、効率的なプロジェクタによる相互モダリティ相互作用を含む、1.4Bと2.7Bのスケールの言語モデルからなる、モバイル指向の無数のアーキテクチャ設計と技法の融合である。いくつかの典型的なVLMベンチマークでMobileVLMを評価する。私たちのモデルは、より大規模なモデルと比較して、同等のパフォーマンスを示します。さらに、Qualcomm Snapdragon 888 CPUとNVIDIA Jeston Orin GPUの両方で推論速度を測定し、それぞれ21.5トークンと65.3トークンの最先端のパフォーマンスを得る。私たちのコードは、https://github.com/Meituan-AutoML/MobileVLMで利用可能になります。

関連論文リスト

Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model [60.171601995737646]
Mobile-VideoGPTはビデオ理解のための効率的なマルチモーダルフレームワークである。軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、小型言語モデル(SLM)で構成されている。その結果,Mobile-VideoGPT-0.5Bは最大46トークンを毎秒生成できることがわかった。
論文参考訳（メタデータ） (2025-03-27T17:59:58Z)
Mordal: Automated Pretrained Model Selection for Vision Language Models [4.339232569078834]
Mordalは自動マルチモーダルモデル検索フレームワークであり、手動で介入することなくユーザ定義タスクに最適なVLMを効率的に見つける。評価の結果,Mordalは最大8.9times$-$11.6times$低GPU時間を用いて,与えられた問題に対して最高のVLMを見つけることができることがわかった。
論文参考訳（メタデータ） (2025-02-01T00:41:29Z)
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices [35.44626025003408]
本稿では,MLLMのモバイルプラットフォームへの効率的なデプロイに適した,アルゴリズムとシステムの共同設計手法であるBlueLM-V-3Bを提案する。小型サイズ: BlueLM-V-3Bは2.7Bパラメータを持つ言語モデルと400Mパラメータを持つエンコーダビジョンを備えている。高速: BlueLM-V-3Bは、MediaTek Dimensity 9300プロセッサの24.4トークン/秒で4ビットLLMの量子化を実現している。
論文参考訳（メタデータ） (2024-11-16T00:14:51Z)
H2OVL-Mississippi Vision Language Models Technical Report [4.070560738863018]
H2OVL-Mississippiは3700万の画像テキスト対で訓練された2組の視覚言語モデルである。 H2OVL-Mississippi-0.8Bは、テキスト認識に特化した0.8億のパラメータを持つ小さなモデルである。 H2OVL-Mississippi-2Bは、一般的なユースケースのための20億のパラメータモデルであり、非常に競争力のある指標を示しています。
論文参考訳（メタデータ） (2024-10-17T14:46:34Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
CogVLM2: Visual Language Models for Image and Video Understanding [69.361109860391]
画像と映像の理解のための新しいビジュアル言語モデルであるCagVLM2ファミリを提案する。イメージ理解モデルとして、CogVLM2は、トレーニング前とトレーニング後の両方でトレーニングレシピを改善したビジュアルエキスパートアーキテクチャを継承する。ビデオ理解モデルとして、CogVLM2-Videoはマルチフレーム入力とタイムスタンプを統合し、時間的グラウンドの自動構築を提案する。
論文参考訳（メタデータ） (2024-08-29T12:59:12Z)
Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文参考訳（メタデータ） (2024-05-22T16:25:03Z)
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model [7.082567506213992]
本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。コンシューマGPUサーバへの効率的なデプロイのために設計されている。
論文参考訳（メタデータ） (2024-05-15T09:47:59Z)
MobileVLM V2: Faster and Stronger Baseline for Vision Language Model [73.74838586081385]
我々は、MobileVLM上で大幅に改善された視覚言語モデルのファミリーであるMobileVLM V2を紹介する。 MobileVLM V2 1.7Bは、標準のVLMベンチマークにおいて、3Bスケールでのはるかに大きなVLMよりも優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-02-06T07:16:36Z)
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。強力な視覚能力を備え、ViT-22Bの代替となる。
論文参考訳（メタデータ） (2023-12-21T18:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。