論文の概要: MobileVLM V2: Faster and Stronger Baseline for Vision Language Model
- arxiv url: http://arxiv.org/abs/2402.03766v1
- Date: Tue, 6 Feb 2024 07:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:08:11.430495
- Title: MobileVLM V2: Faster and Stronger Baseline for Vision Language Model
- Title(参考訳): mobilevlm v2: ビジョン言語モデルの高速かつ強力なベースライン
- Authors: Xiangxiang Chu and Limeng Qiao and Xinyu Zhang and Shuang Xu and Fei
Wei and Yang Yang and Xiaofei Sun and Yiming Hu and Xinyang Lin and Bo Zhang
and Chunhua Shen
- Abstract要約: 我々は、MobileVLM上で大幅に改善された視覚言語モデルのファミリーであるMobileVLM V2を紹介する。
MobileVLM V2 1.7Bは、標準のVLMベンチマークにおいて、3Bスケールでのはるかに大きなVLMよりも優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 73.74838586081385
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We introduce MobileVLM V2, a family of significantly improved vision language
models upon MobileVLM, which proves that a delicate orchestration of novel
architectural design, an improved training scheme tailored for mobile VLMs, and
rich high-quality dataset curation can substantially benefit VLMs' performance.
Specifically, MobileVLM V2 1.7B achieves better or on-par performance on
standard VLM benchmarks compared with much larger VLMs at the 3B scale.
Notably, our 3B model outperforms a large variety of VLMs at the 7B+ scale. Our
models will be released at https://github.com/Meituan-AutoML/MobileVLM .
- Abstract(参考訳): 我々は,MobileVLM上で大幅に改良された視覚言語モデルであるMobileVLM V2を紹介し,新しいアーキテクチャ設計の繊細なオーケストレーション,モバイルVLMに適したトレーニングスキームの改善,高品質なデータセットキュレーションにより,VLMの性能を大幅に向上させることができることを示した。
特に、MobileVLM V2 1.7Bは、標準VLMベンチマークにおいて、3Bスケールでのより大きなVLMよりも優れた、または低いパフォーマンスを達成する。
特に、我々の3Bモデルは7B+スケールで様々なVLMより優れています。
私たちのモデルはhttps://github.com/Meituan-AutoML/MobileVLMでリリースされます。
関連論文リスト
- Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models [55.267193180769794]
Mini-Geminiはマルチモーダルビジョン言語モデル(VLM)を強化するフレームワーク
Mini-Gemini は 2B から 34B までの一連の高密度および高密度な MoE 言語モデル (LLM) をサポートしている。
いくつかのゼロショットベンチマークで主要なパフォーマンスを達成でき、開発済みのプライベートモデルを超えている。
論文 参考訳(メタデータ) (2024-03-27T17:59:04Z) - TinyLLaVA: A Framework of Small-scale Large Multimodal Models [11.686023770810937]
本研究では,異なる視覚エンコーダ,接続モジュール,言語モデル,トレーニングデータ,トレーニングレシピの効果について検討する。
我々は,LLaVA-1.5 や Qwen-VL といった既存の 7B モデルに対して,我々の最良のモデル TinyLLaVA-3.1B を訓練する。
論文 参考訳(メタデータ) (2024-02-22T05:05:30Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - VIM: Probing Multimodal Large Language Models for Visual Embedded
Instruction Following [109.02943724765959]
MLLM(Multimodal Large Language Models)の機能に追従する視覚的命令を評価するための新しいフレームワークであるVISUAL EMBEDEDED INSTRUCTION (VIM)を紹介した。
VIMは、命令を視覚シーンに埋め込むことでMLLMに挑戦し、指示に従うために強力な視覚的解釈スキルを要求する。
我々は、VQAv2、MME、MM-Vet、RefCOCOシリーズなどの様々なベンチマークにVIMを適用し、VIMベンチを作成し、Zero Shot、One Shot、Pair Shotという3つの異なるコンテキスト内学習環境にまたがる多様なMLLMを探索する。
論文 参考訳(メタデータ) (2023-11-29T14:08:53Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - MiniVLM: A Smaller and Faster Vision-Language Model [76.35880443015493]
MiniVLMは視覚特徴抽出器と視覚言語融合モジュールの2つのモジュールで構成されている。
MiniVLMはモデルサイズを73%$、推論時間コストを94%$に削減する。
論文 参考訳(メタデータ) (2020-12-13T03:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。