Fugu-MT 論文翻訳(概要): Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

論文の概要: Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

arxiv url: http://arxiv.org/abs/2405.09215v2
Date: Thu, 30 May 2024 06:33:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 20:15:18.469508
Title: Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model
Title（参考訳）: Xmodel-VLM:マルチモーダル視覚言語モデルのためのシンプルなベースライン
Authors: Wanting Xu, Yang Liu, Langping He, Xucheng Huang, Ling Jiang,
Abstract要約: 本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。コンシューマGPUサーバへの効率的なデプロイのために設計されている。
参考スコア（独自算出の注目度）: 7.082567506213992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Xmodel-VLM, a cutting-edge multimodal vision language model. It is designed for efficient deployment on consumer GPU servers. Our work directly confronts a pivotal industry issue by grappling with the prohibitive service costs that hinder the broad adoption of large-scale multimodal systems. Through rigorous training, we have developed a 1B-scale language model from the ground up, employing the LLaVA paradigm for modal alignment. The result, which we call Xmodel-VLM, is a lightweight yet powerful multimodal vision language model. Extensive testing across numerous classic multimodal benchmarks has revealed that despite its smaller size and faster execution, Xmodel-VLM delivers performance comparable to that of larger models. Our model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelVLM.
Abstract（参考訳）: 本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。コンシューマGPUサーバへの効率的なデプロイのために設計されている。当社の作業は,大規模マルチモーダルシステムの普及を阻害するサービスコストを抑えることで,重要な産業問題に直結しています。厳格なトレーニングを通じて,LLaVAパラダイムをモダルアライメントに用い,ゼロから1Bスケールの言語モデルを開発した。この結果はXmodel-VLMと呼ばれ、軽量だが強力なマルチモーダル視覚言語モデルである。多数の古典的マルチモーダルベンチマークの広範なテストにより、Xmodel-VLMはそのサイズが小さく、より高速な実行にもかかわらず、より大きなモデルに匹敵するパフォーマンスを提供することが明らかになった。私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelVLMで公開されています。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts [37.81475180129456]
我々は、弾力的なビジュアルエキスパートによる効率的な視覚言語モデル(Eve)の革新的なフレームワークを紹介します。訓練の複数の段階で視覚的専門知識を戦略的に取り入れることで、Eveは言語能力の保存とマルチモーダル能力の増強のバランスを取る。言語ベンチマークでは明らかに優れており、VLMベンチマークでは68.87%の結果が得られた。
論文参考訳（メタデータ） (2025-01-08T07:42:54Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文参考訳（メタデータ） (2024-12-05T16:48:16Z)
Xmodel-LM Technical Report [13.451816134545163]
Xmodel-LMは、約2兆トークンで事前訓練されたコンパクトで効率的な1.1B言語モデルである。大きさは小さいものの、見事な性能を誇っている。
論文参考訳（メタデータ） (2024-06-05T02:12:06Z)
Libra: Building Decoupled Vision System on Large Language Models [63.28088885230901]
大規模言語モデル(LLM)上の分離視覚システムを備えたプロトタイプモデルLibraを紹介する。分離された視覚システムは、内部モーダルモデリングと相互モーダル相互作用を分離し、ユニークな視覚情報モデリングと効果的な相互モーダル理解をもたらす。
論文参考訳（メタデータ） (2024-05-16T14:34:44Z)
VL-Mamba: Exploring State Space Models for Multimodal Learning [22.701028299912398]
本研究では,状態空間モデルに基づく多モーダル大規模言語モデルであるVL-Mambaを提案する。具体的には、まず、LLamaやVicunaのようなトランスフォーマーベースのバックボーン言語モデルを、事前訓練されたMamba言語モデルに置き換える。
論文参考訳（メタデータ） (2024-03-20T13:48:50Z)
When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。 S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。 1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文参考訳（メタデータ） (2024-03-19T17:58:39Z)
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文参考訳（メタデータ） (2023-12-28T08:21:24Z)
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。強力な視覚能力を備え、ViT-22Bの代替となる。
論文参考訳（メタデータ） (2023-12-21T18:59:31Z)
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文参考訳（メタデータ） (2023-07-30T09:48:36Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks [38.05496300873095]
ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。我々は、統合された事前学習フレームワークにより、多粒度視覚言語アライメントを学習することを提案する。 X$2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
論文参考訳（メタデータ） (2022-11-22T16:48:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。