論文の概要: VC-GPT: Visual Conditioned GPT for End-to-End Generative
Vision-and-Language Pre-training
- arxiv url: http://arxiv.org/abs/2201.12723v1
- Date: Sun, 30 Jan 2022 04:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 14:36:09.957491
- Title: VC-GPT: Visual Conditioned GPT for End-to-End Generative
Vision-and-Language Pre-training
- Title(参考訳): VC-GPT: 次世代ビジョン・ランゲージ事前学習のための視覚条件付きGPT
- Authors: Ziyang Luo, Yadong Xi, Rongsheng Zhang, Jing Ma
- Abstract要約: 視覚と言語による事前学習モデル(VLM)は、クロスモーダル領域において大きな成功を収めているが、そのほとんどは、事前学習に数百万の並列画像キャプチャーデータを必要とする。
本研究では,視覚前訓練モデル (CLIP-ViT) をエンコーダとして,言語前訓練モデル (GPT2) をデコーダとして利用することにより,生成前訓練の必要性を減らすことに焦点を当てる。
- 参考スコア(独自算出の注目度): 9.511101155155957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language pre-training models (VLMs) have achieved tremendous
success in the cross-modal area, but most of them require millions of parallel
image-caption data for pre-training. Collating such data is expensive and
labor-intensive. In this work, we focus on reducing such need for generative
vision-and-language pre-training (G-VLP) by taking advantage of the visual
pre-trained model (CLIP-ViT) as encoder and language pre-trained model (GPT2)
as decoder. Unfortunately, GPT2 lacks a necessary cross-attention module, which
hinders the direct connection of CLIP-ViT and GPT2. To remedy such defects, we
conduct extensive experiments to empirically investigate how to design and
pre-train our model. Based on our experimental results, we propose a novel
G-VLP framework, Visual Conditioned GPT (VC-GPT), and pre-train it with a
small-scale parallel image-caption corpus (Visual Genome, only 110k distinct
images). Evaluating on the image captioning downstream tasks (MSCOCO and
Flickr30k Captioning), VC-GPT achieves either the best or the second-best
performance across all evaluation metrics over the previous works which consume
around 30 times more parallel data during pre-training.
- Abstract(参考訳): vision-and-language pre-training models (vlms)はクロスモーダル領域で大きな成功を収めているが、その多くはプレトレーニングのために数百万の並列画像キャプチャデータを必要とする。
このようなデータの照合は高価で労働集約的です。
本研究では,視覚前訓練モデル(CLIP-ViT)をエンコーダとして,言語前訓練モデル(GPT2)をデコーダとして利用することにより,生成前訓練(G-VLP)の必要性を減らすことに焦点を当てる。
残念ながら、GPT2には、CLIP-ViTとGPT2の直接接続を妨げる、必要なクロスアテンションモジュールがない。
このような欠陥を補うために、モデルを設計し、事前訓練する方法を実証的に調査する広範囲な実験を行った。
実験結果に基づいて,新しいG-VLPフレームワークであるVisual Conditioned GPT (VC-GPT) を提案し,小型並列撮像コーパス(Visual Genome, 110kの異なる画像のみ)で事前学習を行った。
下流タスク(MSCOCOとFlickr30kのキャプション)のイメージキャプションに基づいて、VC-GPTは、事前トレーニング中に約30倍の並列データを消費するすべての評価指標に対して、最高または2番目に高いパフォーマンスを達成する。
関連論文リスト
- Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Unsupervised Prompt Learning for Vision-Language Models [12.259694415428026]
本稿では、CLIPのような視覚言語モデルのゼロショット転送を改善するために、教師なしプロンプトラーニング(UPL)フレームワークを提案する。
UPLの強化バージョンは、ほとんどのデータセットで8ショットのCoOpと8ショットのTIP-Adapterと同等である。
論文 参考訳(メタデータ) (2022-04-07T17:59:57Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。