論文の概要: VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation
- arxiv url: http://arxiv.org/abs/2312.09251v1
- Date: Thu, 14 Dec 2023 18:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:17:25.329647
- Title: VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation
- Title(参考訳): VL-GPT:視覚・言語理解・生成のための生成事前学習型変換器
- Authors: Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang
Zhao, Xiaohua Wang, Ying Shan
- Abstract要約: 視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
- 参考スコア(独自算出の注目度): 79.02357561313785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce Vision-Language Generative Pre-trained Transformer
(VL-GPT), a transformer model proficient at concurrently perceiving and
generating visual and linguistic data. VL-GPT achieves a unified pre-training
approach for both image and text modalities by employing a straightforward
auto-regressive objective, thereby enabling the model to process image and text
as seamlessly as a language model processes text. To accomplish this, we
initially propose a novel image tokenizer-detokenizer framework for visual
data, specifically designed to transform raw images into a sequence of
continuous embeddings and reconstruct them accordingly. In combination with the
existing text tokenizer and detokenizer, this framework allows for the encoding
of interleaved image-text data into a multimodal sequence, which can
subsequently be fed into the transformer model. Consequently, VL-GPT can
perform large-scale pre-training on multimodal corpora utilizing a unified
auto-regressive objective (i.e., next-token prediction). Upon completion of
pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance
across a diverse range of vision and language understanding and generation
tasks, including image captioning, visual question answering, text-to-image
generation, and more. Additionally, the pre-trained model retrains in-context
learning capabilities when provided with multimodal prompts. We further conduct
instruction tuning on our VL-GPT, highlighting its exceptional potential for
multimodal assistance. The source code and model weights shall be released.
- Abstract(参考訳): 本研究では,視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を紹介する。
VL-GPTは、単純で自己回帰的な目的を生かして、画像とテキストのモダリティを統一した事前学習アプローチを実現し、言語モデルがテキストを処理するように、画像とテキストをシームレスに処理できるようにする。
そこで本稿では,視覚データのための画像トークン化・デトケナイザフレームワークを提案する。
このフレームワークは、既存のテキストトークンとデトケナイザを組み合わせることで、インターリーブされた画像テキストデータをマルチモーダルシーケンスに符号化し、変換器モデルに入力することができる。
これにより、VL-GPTは、統合された自己回帰的目標(すなわち次トーケン予測)を利用して、マルチモーダルコーパス上で大規模な事前訓練を行うことができる。
事前トレーニングが完了すると、VL-GPTは画像キャプション、視覚的質問応答、テキスト・ツー・イメージ生成など、様々な視覚・言語理解および生成タスクにおいて、目覚ましいゼロショットと少数ショットのパフォーマンスを示す。
さらに、事前訓練されたモデルは、マルチモーダルプロンプトを備えた場合、コンテキスト内学習機能を再訓練する。
我々は、VL-GPTの命令チューニングをさらに実施し、マルチモーダル・アシストの可能性を強調した。
ソースコード及びモデルの重み付けは、リリースする。
関連論文リスト
- Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - MAGVLT: Masked Generative Vision-and-Language Transformer [15.796199345773879]
画像とテキストシーケンスの両方を生成可能な統合生成型視覚言語モデルについて検討する。
本稿では,非自己回帰マスク予測に基づく生成VL変換器MAGVLTを提案し,自己回帰生成VL変換器(ARGVLT)と比較する。
MAGVLTと画像テキストペアをスクラッチから厳格に訓練するために、画像からテキスト、テキスト・ツー・イメージ、および共同画像・テキスト・マスク予測タスクを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T21:49:39Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。