論文の概要: Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model
- arxiv url: http://arxiv.org/abs/2405.09215v3
- Date: Thu, 20 Jun 2024 07:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 03:59:12.487489
- Title: Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model
- Title(参考訳): Xmodel-VLM:マルチモーダル視覚言語モデルのためのシンプルなベースライン
- Authors: Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang,
- Abstract要約: 本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。
コンシューマGPUサーバへの効率的なデプロイのために設計されている。
- 参考スコア(独自算出の注目度): 7.082567506213992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.
- Abstract(参考訳): 本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。
コンシューマGPUサーバへの効率的なデプロイのために設計されている。
当社の作業は,大規模マルチモーダルシステムの普及を阻害するサービスコストを抑えることで,重要な産業問題に直結しています。
厳格なトレーニングを通じて,LLaVAパラダイムをモダルアライメントに用い,ゼロから1Bスケールの言語モデルを開発した。
この結果はXmodel-VLMと呼ばれ、軽量だが強力なマルチモーダル視覚言語モデルである。
多数の古典的マルチモーダルベンチマークの広範なテストにより、Xmodel-VLMはそのサイズが小さく、より高速な実行にもかかわらず、より大きなモデルに匹敵するパフォーマンスを提供することが明らかになった。
私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelVLMで公開されています。
関連論文リスト
- Xmodel-LM Technical Report [13.451816134545163]
Xmodel-LMは、約2兆トークンで事前訓練されたコンパクトで効率的な1.1B言語モデルである。
大きさは小さいものの、見事な性能を誇っている。
論文 参考訳(メタデータ) (2024-06-05T02:12:06Z) - Libra: Building Decoupled Vision System on Large Language Models [63.28088885230901]
大規模言語モデル(LLM)上の分離視覚システムを備えたプロトタイプモデルLibraを紹介する。
分離された視覚システムは、内部モーダルモデリングと相互モーダル相互作用を分離し、ユニークな視覚情報モデリングと効果的な相互モーダル理解をもたらす。
論文 参考訳(メタデータ) (2024-05-16T14:34:44Z) - VL-Mamba: Exploring State Space Models for Multimodal Learning [22.701028299912398]
本研究では,状態空間モデルに基づく多モーダル大規模言語モデルであるVL-Mambaを提案する。
具体的には、まず、LLamaやVicunaのようなトランスフォーマーベースのバックボーン言語モデルを、事前訓練されたMamba言語モデルに置き換える。
論文 参考訳(メタデータ) (2024-03-20T13:48:50Z) - When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。
1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文 参考訳(メタデータ) (2024-03-19T17:58:39Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks [38.05496300873095]
ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
我々は、統合された事前学習フレームワークにより、多粒度視覚言語アライメントを学習することを提案する。
X$2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
論文 参考訳(メタデータ) (2022-11-22T16:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。