論文の概要: X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2211.12402v1
- Date: Tue, 22 Nov 2022 16:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:43:36.620045
- Title: X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks
- Title(参考訳): X$^2$-VLM:視覚言語タスクのためのオールインワン事前学習モデル
- Authors: Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang,
Wangchunshu Zhou
- Abstract要約: ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
本稿では,画像と映像のエンコーディングを1つのモデルで統一し,大規模データでモデルをスケールアップすることで,提案手法を推し進める。
X$2$-VLMは、画像テキストタスクとビデオテキストタスクの両方のためのモジュラーアーキテクチャを備えた訓練済みのVLMである。
- 参考スコア(独自算出の注目度): 38.05496300873095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision language pre-training aims to learn alignments between vision and
language from a large amount of data. We proposed multi-grained vision language
pre-training, a unified approach which can learn vision language alignments in
multiple granularity. This paper advances the proposed method by unifying image
and video encoding in one model and scaling up the model with large-scale data.
We present X$^2$-VLM, a pre-trained VLM with a modular architecture for both
image-text tasks and video-text tasks. Experiment results show that X$^2$-VLM
performs the best on base and large scale for both image-text and video-text
tasks, making a good trade-off between performance and model scale. Moreover,
we show that the modular design of X$^2$-VLM results in high transferability
for X$^2$-VLM to be utilized in any language or domain. For example, by simply
replacing the text encoder with XLM-R, X$^2$-VLM outperforms state-of-the-art
multilingual multi-modal pre-trained models without any multilingual
pre-training. The code and pre-trained models will be available at
github.com/zengyan-97/X2-VLM.
- Abstract(参考訳): ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
複数の粒度で視覚言語アライメントを学習できる統一的なアプローチである多粒度視覚言語事前学習を提案する。
本稿では,画像と映像の符号化を1つのモデルに統一し,大規模データでモデルを拡大する手法を提案する。
X$^2$-VLMは、画像テキストタスクとビデオテキストタスクの両方のためのモジュラーアーキテクチャを備えた訓練済みのVLMである。
実験の結果、X$^2$-VLMは、画像テキストとビデオテキストの両方のタスクに対して、ベースおよび大規模で最高の性能を示し、性能とモデルスケールのトレードオフが良好であることがわかった。
さらに、X$^2$-VLMのモジュラ設計により、任意の言語やドメインで使用されるX$^2$-VLMの高い転送性が得られることを示す。
例えば、テキストエンコーダをxlm-rに置き換えることで、x$^2$-vlmは、多言語事前学習なしで最先端の多言語マルチモーダル事前学習モデルを上回る。
コードと事前訓練されたモデルはgithub.com/zengyan-97/X2-VLMで入手できる。
関連論文リスト
- InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - Toward Building General Foundation Models for Language, Vision, and
Vision-Language Understanding Tasks [27.450456238980433]
我々は新しい基礎モデル X-FM (X-Foundation Model) を提案する。
X-FMには1つの言語エンコーダ、1つの視覚エンコーダ、1つの融合エンコーダと新しい訓練方法がある。
X-FMは既存の基礎モデルを大幅に上回り、言語、視覚、視覚言語理解のための既存の基礎モデルに匹敵する性能を発揮する。
論文 参考訳(メタデータ) (2023-01-12T15:03:05Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。