論文の概要: Learning by Hallucinating: Vision-Language Pre-training with Weak
Supervision
- arxiv url: http://arxiv.org/abs/2210.13591v2
- Date: Thu, 27 Oct 2022 09:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:12:05.039866
- Title: Learning by Hallucinating: Vision-Language Pre-training with Weak
Supervision
- Title(参考訳): 幻覚による学習--弱い監督を伴う視覚言語事前学習
- Authors: Tzu-Jui Julius Wang, Jorma Laaksonen, Tomas Langer, Heikki Arponen,
and Tom E. Bishop
- Abstract要約: 弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。
オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。
Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。
WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
- 参考スコア(独自算出の注目度): 6.8582563015193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised vision-language (V-L) pre-training (W-VLP) aims at learning
cross-modal alignment with little or no paired data, such as aligned images and
captions. Recent W-VLP methods, which pair visual features with object tags,
help achieve performances comparable with some VLP models trained with aligned
pairs in various V-L downstream tasks. This, however, is not the case in
cross-modal retrieval (XMR). We argue that the learning of such a W-VLP model
is curbed and biased by the object tags of limited semantics.
We address the lack of paired V-L data for model supervision with a novel
Visual Vocabulary based Feature Hallucinator (WFH), which is trained via weak
supervision as a W-VLP model, not requiring images paired with captions. WFH
generates visual hallucinations from texts, which are then paired with the
originally unpaired texts, allowing more diverse interactions across
modalities.
Empirically, WFH consistently boosts the prior W-VLP works, e.g. U-VisualBERT
(U-VB), over a variety of V-L tasks, i.e. XMR, Visual Question Answering, etc.
Notably, benchmarked with recall@{1,5,10}, it consistently improves U-VB on
image-to-text and text-to-image retrieval on two popular datasets Flickr30K and
MSCOCO. Meanwhile, it gains by at least 14.5% in cross-dataset generalization
tests on these XMR tasks. Moreover, in other V-L downstream tasks considered,
our WFH models are on par with models trained with paired V-L data, revealing
the utility of unpaired data. These results demonstrate greater generalization
of the proposed W-VLP model with WFH.
- Abstract(参考訳): 弱教師付き視覚言語 (V-L) 事前訓練 (W-VLP) は、画像やキャプションの整列など、ペア化されたデータが少ない、あるいは全くペア化されていないクロスモーダルアライメントを学習することを目的としている。
オブジェクトタグと視覚的特徴をペアリングする最近のW-VLP手法は、様々なV-L下流タスクで整列ペアで訓練された一部のVLPモデルと同等のパフォーマンスを達成する。
しかし、これはクロスモーダル検索(XMR)ではそうではない。
このようなW-VLPモデルの学習は、限定的な意味論のオブジェクトタグによって抑制され、偏りがあると主張する。
我々は,W-VLPモデルとして弱い監督によって訓練され,キャプションと組み合わせた画像を必要としない新しいビジュアル語彙ベースの特徴幻覚器 (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。
WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
WFHは、例えばU-VisualBERT(U-VB)のような以前のW-VLPワークを、XMR、Visual Question Answeringなど様々なV-Lタスクで継続的に強化している。
recall@{1,5,10}でベンチマークした結果、flickr30kとmscocoという2つの人気データセットで、画像からテキストへのu-vbとテキストから画像への検索が一貫して改善されている。
一方、XMRタスクのクロスデータセットの一般化テストでは、少なくとも14.5%向上している。
さらに、他のV-L下流タスクでは、私たちのWFHモデルはペア化されたV-Lデータで訓練されたモデルと同等であり、未ペアデータの有用性を明らかにしている。
これらの結果はWFHを用いたW-VLPモデルのより一般化されたものである。
関連論文リスト
- PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language
Pre-training via Prompting [8.784049710686629]
画像記述のための大規模言語モデル(LLM)から知識を誘導するPrompts-in-The-Loop(PiTL)を提案する。
In14Kは9M画像の新しいVLデータセットであり、ImageNet21KとPiTLから14Kカテゴリの1M記述である。
論文 参考訳(メタデータ) (2023-07-14T13:43:04Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Probing Cross-modal Semantics Alignment Capability from the Textual
Perspective [52.52870614418373]
クロスモーダルなセマンティクスの調整は、視覚と言語の事前学習モデルの本質的な能力の1つであると主張されている。
画像キャプションに基づく新しい探索手法を提案し,まずFjordモデルのモーダル間セマンティクスアライメントを実証的に研究する。
論文 参考訳(メタデータ) (2022-10-18T02:55:58Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Contrastive Visual-Linguistic Pretraining [48.88553854384866]
コントラスト的視覚言語事前学習は、コントラスト的学習に基づいて構築された視覚的自己監督的損失を構成する。
VQA, GQA, NLVR2などの下流タスクで評価した。
論文 参考訳(メタデータ) (2020-07-26T14:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。