論文の概要: MixGen: A New Multi-Modal Data Augmentation
- arxiv url: http://arxiv.org/abs/2206.08358v1
- Date: Thu, 16 Jun 2022 17:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 14:08:57.601825
- Title: MixGen: A New Multi-Modal Data Augmentation
- Title(参考訳): MixGen: 新しいマルチモーダルデータ拡張
- Authors: Xiaoshuai Hao, Yi Zhu, Srikar Appalaraju, Aston Zhang, Wanqian Zhang,
Bo Li, Mu Li
- Abstract要約: MixGenは、視覚言語表現学習のためのジョイントデータ拡張である。
画像の補間とテキストの連結によって保存された意味関係を持つ新しい画像テキストペアを生成する。
- 参考スコア(独自算出の注目度): 18.066628561407743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is a necessity to enhance data efficiency in deep learning.
For vision-language pre-training, data is only augmented either for images or
for text in previous works. In this paper, we present MixGen: a joint data
augmentation for vision-language representation learning to further improve
data efficiency. It generates new image-text pairs with semantic relationships
preserved by interpolating images and concatenating text. It's simple, and can
be plug-and-played into existing pipelines. We evaluate MixGen on four
architectures, including CLIP, ViLT, ALBEF and TCL, across five downstream
vision-language tasks to show its versatility and effectiveness. For example,
adding MixGen in ALBEF pre-training leads to absolute performance improvements
on downstream tasks: image-text retrieval (+6.2% on COCO fine-tuned and +5.3%
on Flicker30K zero-shot), visual grounding (+0.9% on RefCOCO+), visual
reasoning (+0.9% on NLVR$^{2}$), visual question answering (+0.3% on VQA2.0),
and visual entailment (+0.4% on SNLI-VE).
- Abstract(参考訳): データ拡張は、ディープラーニングにおけるデータ効率を向上させるために必要である。
視覚言語事前学習の場合、データは以前の作品で画像またはテキストに対してのみ追加される。
本稿では,データ効率を向上させるために,視覚言語表現学習のためのジョイントデータ拡張であるMixGenを提案する。
画像の補間とテキストの連結によって保存された意味関係を持つ新しい画像テキストペアを生成する。
シンプルで、既存のパイプラインにプラグイン&プレイできます。
我々は,CLIP, ViLT, ALBEF, TCLの4つのアーキテクチャ上で,5つの下流視覚言語タスクに対してMixGenを評価し,その汎用性と有効性を示した。
例えば、ALBEFの事前トレーニングにMixGenを追加すると、ダウンストリームタスクのパフォーマンスが絶対的に向上する:イメージテキスト検索(COCO細調整+6.2%、Flicker30Kゼロショット+5.3%)、ビジュアルグラウンド(RefCOCO++0.9%)、ビジュアル推論(NLVR$^{2}$+0.9%)、ビジュアル質問応答(VQA2.0+0.3%)、ビジュアルエンターメント(SNLI-VE+0.4%)。
関連論文リスト
- VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - T-MARS: Improving Visual Representations by Circumventing Text Feature Learning [99.3682210827572]
LAIONの画像の40%近くは、字幕と重なるテキストを含んでいるという、我々の観察に動機づけられた新しいデータフィルタリング手法を提案する。
我々のシンプルでスケーラブルなアプローチであるT-MARSは、テキストが残りの視覚的特徴を支配するペアのみをフィルタリングします。
論文 参考訳(メタデータ) (2023-07-06T16:59:52Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - Data-Efficient Augmentation for Training Neural Networks [15.870155099135538]
本稿では,データポイントのサブセットを選択するための厳密な手法を提案する。
SVHNのCIFAR10では6.3倍,SVHNでは2.2倍の高速化を実現し,様々なサブセットサイズでベースラインを最大10%向上させる。
論文 参考訳(メタデータ) (2022-10-15T19:32:20Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z) - VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and
Linguistic Knowledge from Pretraining [39.24803665848558]
大規模事前学習言語モデル(LM)から言語知識を活用するデータ効率のよい画像キャプションモデルであるVisualGPTを提案する。
少量のインドメイントレーニングデータに予め訓練されたLMを言語デコーダとして迅速に適応させる,新しい自己回復型エンコーダデコーダ注意機構を設計した。
VisualGPTは、MS COCOで最大10.8%のCIDEr、コンセプチュアルキャプションで最大5.4%のCIDErで最高のベースラインモデルを上回る。
論文 参考訳(メタデータ) (2021-02-20T18:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。