論文の概要: Too Large; Data Reduction for Vision-Language Pre-Training
- arxiv url: http://arxiv.org/abs/2305.20087v1
- Date: Wed, 31 May 2023 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 14:33:12.922569
- Title: Too Large; Data Reduction for Vision-Language Pre-Training
- Title(参考訳): ビジョンランゲージ事前学習のためのデータ削減
- Authors: Alex Jinpeng Wang, Kevin Qinghong Lin, David Junhao Zhang, Stan
Weixian Lei and Mike Zheng Shou
- Abstract要約: 本稿では,広範に使用されているVision-Language Pre-Trainingデータセットにおける画像テキストの不一致と高い冗長性の問題について検討する。
これらの問題に対処するために、TL;DRと呼ばれる効率的かつ簡単な視覚言語学習アルゴリズムを提案する。
まず、コードブックベースのエンコーダ・デコーダキャプタを開発し、代表サンプルを選定する。
次に、選択されたサンプルの原文キャプションを補完する新たなキャプションを生成し、テキスト画像の誤認識問題を緩和する。
- 参考スコア(独自算出の注目度): 5.748537121230568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines the problems of severe image-text misalignment and high
redundancy in the widely-used large-scale Vision-Language Pre-Training (VLP)
datasets. To address these issues, we propose an efficient and straightforward
Vision-Language learning algorithm called TL;DR, which aims to compress the
existing large VLP data into a small, high-quality set. Our approach consists
of two major steps. First, a codebook-based encoder-decoder captioner is
developed to select representative samples. Second, a new caption is generated
to complement the original captions for selected samples, mitigating the
text-image misalignment problem while maintaining uniqueness. As the result,
TL;DR enables us to reduce the large dataset into a small set of high-quality
data, which can serve as an alternative pre-training dataset. This algorithm
significantly speeds up the time-consuming pretraining process. Specifically,
TL;DR can compress the mainstream VLP datasets at a high ratio, e.g., reduce
well-cleaned CC3M dataset from 2.82M to 0.67M ($\sim$24\%) and noisy YFCC15M
from 15M to 2.5M ($\sim$16.7\%). Extensive experiments with three popular VLP
models over seven downstream tasks show that VLP model trained on the
compressed dataset provided by TL;DR can perform similar or even better results
compared with training on the full-scale dataset. The code will be made
available at \url{https://github.com/showlab/data-centric.vlp}.
- Abstract(参考訳): 本稿では,vlpデータセットにおける重大画像テキスト不一致と高い冗長性の問題について検討する。
そこで本研究では,既存の大規模vlpデータを小型で高品質な集合に圧縮することを目的とした,効率的な視覚言語学習アルゴリズムtl;drを提案する。
我々のアプローチは2つの大きなステップからなる。
まず、代表サンプルを選択するコードブックベースのエンコーダ・デコーダキャプションを開発した。
第2に、選択されたサンプルの原字幕を補完する新たなキャプションを生成し、独特性を維持しつつ、テキスト画像の誤調整問題を緩和する。
その結果、TL;DRにより、大規模なデータセットを少数の高品質なデータセットに縮小することが可能となり、代替の事前学習データセットとして機能する。
このアルゴリズムは、時間を要する事前学習プロセスを著しく高速化する。
具体的には、TL;DRは主流のVLPデータセットを高い比率で圧縮することができる。例えば、よくクリーニングされたCC3Mデータセットを2.82Mから0.67M(\sim$24\%)に、ノイズの多いYFCC15Mを15Mから2.5M(\sim$16.7\%)に削減できる。
7つのダウンストリームタスクにまたがる3つの一般的なVLPモデルによる大規模な実験により、TL;DRによって提供される圧縮データセットでトレーニングされたVLPモデルは、フルスケールデータセットでのトレーニングと比較すると、同様の、あるいはそれ以上の結果が得られることが示された。
コードは \url{https://github.com/showlab/data-centric.vlp} で入手できる。
関連論文リスト
- Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - CiT: Curation in Training for Effective Vision-Language Data [84.77867625605053]
本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。
CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。
我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
論文 参考訳(メタデータ) (2023-01-05T18:59:57Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Learning by Hallucinating: Vision-Language Pre-training with Weak
Supervision [6.8582563015193]
弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。
オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。
Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。
WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-10-24T20:30:55Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。