論文の概要: MobileVLM V2: Faster and Stronger Baseline for Vision Language Model
- arxiv url: http://arxiv.org/abs/2402.03766v1
- Date: Tue, 6 Feb 2024 07:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:08:11.430495
- Title: MobileVLM V2: Faster and Stronger Baseline for Vision Language Model
- Title(参考訳): mobilevlm v2: ビジョン言語モデルの高速かつ強力なベースライン
- Authors: Xiangxiang Chu and Limeng Qiao and Xinyu Zhang and Shuang Xu and Fei
Wei and Yang Yang and Xiaofei Sun and Yiming Hu and Xinyang Lin and Bo Zhang
and Chunhua Shen
- Abstract要約: 我々は、MobileVLM上で大幅に改善された視覚言語モデルのファミリーであるMobileVLM V2を紹介する。
MobileVLM V2 1.7Bは、標準のVLMベンチマークにおいて、3Bスケールでのはるかに大きなVLMよりも優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 73.74838586081385
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We introduce MobileVLM V2, a family of significantly improved vision language
models upon MobileVLM, which proves that a delicate orchestration of novel
architectural design, an improved training scheme tailored for mobile VLMs, and
rich high-quality dataset curation can substantially benefit VLMs' performance.
Specifically, MobileVLM V2 1.7B achieves better or on-par performance on
standard VLM benchmarks compared with much larger VLMs at the 3B scale.
Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our
models will be released at https://github.com/Meituan-AutoML/MobileVLM .
- Abstract(参考訳): 我々は,MobileVLM上で大幅に改良された視覚言語モデルであるMobileVLM V2を紹介し,新しいアーキテクチャ設計の繊細なオーケストレーション,モバイルVLMに適したトレーニングスキームの改善,高品質なデータセットキュレーションにより,VLMの性能を大幅に向上させることができることを示した。
特に、MobileVLM V2 1.7Bは、標準VLMベンチマークにおいて、3Bスケールでのより大きなVLMよりも優れた、または低いパフォーマンスを達成する。
特に、我々の3Bモデルは7B+スケールで様々なVLMより優れています。
私たちのモデルはhttps://github.com/Meituan-AutoML/MobileVLMでリリースされます。
関連論文リスト
- Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models [39.706833232931245]
ファンデーションビジョン言語モデル(VLM)はマルチモーダル表現学習、理解、推論において強力な能力を示す。
VLMにアクションコンポーネントを注入することにより、自然にVLA(Vision-Language-Action Models)を形成し、有望な性能を示すことができる。
本稿では,VLAの性能に大きく影響を及ぼす重要な要因を明らかにするとともに,3つの重要な設計選択に答えることに注力する。
我々はVLAの新たなファミリーであるRoboVLMsを開発し、3つのシミュレーションタスクと実世界の実験で非常に少ない手動設計と新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-18T17:07:20Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices [35.44626025003408]
本稿では,MLLMのモバイルプラットフォームへの効率的なデプロイに適した,アルゴリズムとシステムの共同設計手法であるBlueLM-V-3Bを提案する。
小型サイズ: BlueLM-V-3Bは2.7Bパラメータを持つ言語モデルと400Mパラメータを持つエンコーダビジョンを備えている。
高速: BlueLM-V-3Bは、MediaTek Dimensity 9300プロセッサの24.4トークン/秒で4ビットLLMの量子化を実現している。
論文 参考訳(メタデータ) (2024-11-16T00:14:51Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。