論文の概要: Enhancing Vision-Language Pre-Training with Jointly Learned Questioner
and Dense Captioner
- arxiv url: http://arxiv.org/abs/2305.11769v1
- Date: Fri, 19 May 2023 15:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:40:04.288970
- Title: Enhancing Vision-Language Pre-Training with Jointly Learned Questioner
and Dense Captioner
- Title(参考訳): 学習者と密集キャプションを用いた視覚言語事前学習の強化
- Authors: Zikang Liu, Sihan Chen, Longteng Guo, Handong Li, Xingjian He, Jing
Liu
- Abstract要約: 我々は,JADE(Joint QA and DC GEneration)と呼ばれる新しい手法を提案する。
トレーニング済みのマルチモーダルモデルと、簡単に拡張可能な画像テキストペアを使用して、大規模なVQAと高密度キャプションデータセットの自動生成とフィルタリングを行う。
実験により,マルチタスク方式で事前学習を行う場合,CC3M-QA-DCは様々な下流タスクにおいて,様々なバックボーンを用いて性能を向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 23.45696017024429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained multimodal models have demonstrated significant success in
a range of downstream tasks, including image captioning, image-text retrieval,
visual question answering (VQA), etc. However, many of these methods rely on
image-text pairs collected from the web as pre-training data and unfortunately
overlook the need for fine-grained feature alignment between vision and
language modalities, which requires detailed understanding of images and
language expressions. While integrating VQA and dense captioning (DC) into
pre-training can address this issue, acquiring image-question-answer as well as
image-location-caption triplets is challenging and time-consuming.
Additionally, publicly available datasets for VQA and dense captioning are
typically limited in scale due to manual data collection and labeling efforts.
In this paper, we propose a novel method called Joint QA and DC GEneration
(JADE), which utilizes a pre-trained multimodal model and easily-crawled
image-text pairs to automatically generate and filter large-scale VQA and dense
captioning datasets. We apply this method to the Conceptual Caption (CC3M)
dataset to generate a new dataset called CC3M-QA-DC. Experiments show that when
used for pre-training in a multi-task manner, CC3M-QA-DC can improve the
performance with various backbones on various downstream tasks. Furthermore,
our generated CC3M-QA-DC can be combined with larger image-text datasets (e.g.,
CC15M) and achieve competitive results compared with models using much more
data. Code and dataset will be released.
- Abstract(参考訳): 大規模な事前学習型マルチモーダルモデルは、画像キャプション、画像テキスト検索、視覚的質問応答(VQA)など、下流タスクにおいて大きな成功を収めている。
しかし、これらの手法の多くは、Webから収集した画像とテキストのペアを事前学習データとして頼りにしており、残念ながら、視覚と言語モダリティの微妙な特徴調整の必要性を見落としている。
VQAと高密度キャプション(DC)を事前訓練に組み込むことはこの問題に対処できるが、画像検索と画像位置対応三脚の取得は困難であり、時間を要する。
加えて、VQAと高密度キャプションのための公開データセットは通常、手動のデータ収集とラベル付けの取り組みのために大規模に制限されている。
本稿では,事前学習されたマルチモーダルモデルと容易に拡張可能な画像テキストペアを用いて,大規模VQAと高密度キャプションデータセットの自動生成とフィルタリングを行うJADE(Joint QA and DC GEneration)を提案する。
本稿では,概念キャプション(CC3M)データセットに適用し,CC3M-QA-DCと呼ばれる新しいデータセットを生成する。
実験により,マルチタスク方式で事前学習を行う場合,CC3M-QA-DCは様々な下流タスクにおいて,様々なバックボーンを用いて性能を向上させることができることがわかった。
さらに、生成されたCC3M-QA-DCは、より大きな画像テキストデータセット(例えば、CC15M)と組み合わせて、より多くのデータを使用するモデルと比較して、競合的な結果を得ることができる。
コードとデータセットがリリースされる。
関連論文リスト
- Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Diverse Image Captioning with Context-Object Split Latent Spaces [22.95979735707003]
本稿では,画像やテキストのコンテキスト記述における多様性をモデル化するために,コンテキストオブジェクト分割と呼ばれる潜在空間の新たな因子分解を導入する。
本フレームワークは,文脈に基づく疑似監視による多種多様なキャプションを可能にするだけでなく,新たなオブジェクトを持つ画像に拡張し,トレーニングデータにペアのキャプションを含まないようにした。
論文 参考訳(メタデータ) (2020-11-02T13:33:20Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。