論文の概要: X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2211.12402v2
- Date: Sun, 30 Jul 2023 13:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 00:05:00.925297
- Title: X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks
- Title(参考訳): X$^2$-VLM:視覚言語タスクのためのオールインワン事前学習モデル
- Authors: Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang,
Wangchunshu Zhou
- Abstract要約: ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
我々は、統合された事前学習フレームワークにより、多粒度視覚言語アライメントを学習することを提案する。
X$2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
- 参考スコア(独自算出の注目度): 38.05496300873095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision language pre-training aims to learn alignments between vision and
language from a large amount of data. Most existing methods only learn
image-text alignments. Some others utilize pre-trained object detectors to
leverage vision language alignments at the object level. In this paper, we
propose to learn multi-grained vision language alignments by a unified
pre-training framework that learns multi-grained aligning and multi-grained
localization simultaneously. Based on it, we present X$^2$-VLM, an all-in-one
model with a flexible modular architecture, in which we further unify
image-text pre-training and video-text pre-training in one model. X$^2$-VLM is
able to learn unlimited visual concepts associated with diverse text
descriptions. Experiment results show that X$^2$-VLM performs the best on base
and large scale for both image-text and video-text tasks, making a good
trade-off between performance and model scale. Moreover, we show that the
modular design of X$^2$-VLM results in high transferability for it to be
utilized in any language or domain. For example, by simply replacing the text
encoder with XLM-R, X$^2$-VLM outperforms state-of-the-art multilingual
multi-modal pre-trained models without any multilingual pre-training. The code
and pre-trained models are available at https://github.com/zengyan-97/X2-VLM.
- Abstract(参考訳): ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
既存の手法のほとんどは画像テキストのアライメントのみを学習する。
事前訓練されたオブジェクト検出器を使用して、オブジェクトレベルでの視覚言語アライメントを利用するものもある。
本稿では,多粒度アライメントと多粒度ローカライゼーションを同時に学習する統合事前学習フレームワークにより,多粒度視覚言語アライメントの学習を提案する。
そこで本研究では, フレキシブルなモジュラーアーキテクチャを備えたオールインワンモデルであるX$^2$-VLMを紹介し, 画像テキスト事前学習とビデオテキスト事前学習をさらに統合する。
X$^2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
実験の結果、X$^2$-VLMは、画像テキストとビデオテキストの両方のタスクに対して、ベースおよび大規模で最高の性能を示し、性能とモデルスケールのトレードオフが良好であることがわかった。
さらに、X$^2$-VLMのモジュラ設計により、どんな言語やドメインでも高い転送性が得られることを示す。
例えば、テキストエンコーダをxlm-rに置き換えることで、x$^2$-vlmは、多言語事前学習なしで最先端の多言語マルチモーダル事前学習モデルを上回る。
コードと事前学習されたモデルはhttps://github.com/zengyan-97/x2-vlmで入手できる。
関連論文リスト
- InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - Toward Building General Foundation Models for Language, Vision, and
Vision-Language Understanding Tasks [27.450456238980433]
我々は新しい基礎モデル X-FM (X-Foundation Model) を提案する。
X-FMには1つの言語エンコーダ、1つの視覚エンコーダ、1つの融合エンコーダと新しい訓練方法がある。
X-FMは既存の基礎モデルを大幅に上回り、言語、視覚、視覚言語理解のための既存の基礎モデルに匹敵する性能を発揮する。
論文 参考訳(メタデータ) (2023-01-12T15:03:05Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。