論文の概要: Sieve: Multimodal Dataset Pruning Using Image Captioning Models
- arxiv url: http://arxiv.org/abs/2310.02110v2
- Date: Sun, 10 Mar 2024 19:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:57:48.021459
- Title: Sieve: Multimodal Dataset Pruning Using Image Captioning Models
- Title(参考訳): Sieve:イメージキャプションモデルを用いたマルチモーダルデータセットプルーニング
- Authors: Anas Mahmoud, Mostafa Elhoushi, Amro Abbas, Yu Yang, Newsha Ardalani,
Hugh Leather, Ari Morcos
- Abstract要約: Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
- 参考スコア(独自算出の注目度): 11.362835828985494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are pretrained on large, diverse, and noisy
web-crawled datasets. This underscores the critical need for dataset pruning,
as the quality of these datasets is strongly correlated with the performance of
VLMs on downstream tasks. Using CLIPScore from a pretrained model to only train
models using highly-aligned samples is one of the most successful methods for
pruning. We argue that this approach suffers from multiple limitations
including: false positives and negatives due to CLIP's pretraining on noisy
labels. We propose a pruning signal, Sieve, that employs synthetic captions
generated by image-captioning models pretrained on small, diverse, and
well-aligned image-text pairs to evaluate the alignment of noisy image-text
pairs. To bridge the gap between the limited diversity of generated captions
and the high diversity of alternative text (alt-text), we estimate the semantic
textual similarity in the embedding space of a language model pretrained on
unlabeled text corpus. Using DataComp, a multimodal dataset filtering
benchmark, when evaluating on 38 downstream tasks, our pruning approach,
surpasses CLIPScore by 2.6\% and 1.7\% on medium and large scale respectively.
In addition, on retrieval tasks, Sieve leads to a significant improvement of
2.7% and 4.5% on medium and large scale respectively.
- Abstract(参考訳): Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
これは、これらのデータセットの品質がダウンストリームタスクにおけるvlmのパフォーマンスと強く関連しているため、データセットのプルーニングに対する重要なニーズを強調する。
事前訓練されたモデルからCLIPScoreを使用して、高度に整列したサンプルを使用したモデルのみをトレーニングすることが、プルーニングの最も成功した方法の1つである。
このアプローチには,CLIPがノイズラベルを事前学習しているため,偽陽性と否定の2つの制限がある。
本稿では,小型で多彩な画像テキストペアに事前学習した画像キャプチャモデルによって生成された合成キャプションを用いて,ノイズの多い画像テキストペアのアライメントを評価するプルーニング信号であるsieveを提案する。
生成した字幕の多様性と代替テキストの多様性(alt-text)とのギャップを埋めるため,ラベルなしテキストコーパスに事前学習した言語モデルの埋め込み空間における意味的テキスト類似度を推定する。
マルチモーダルデータセットフィルタリングベンチマークであるDataCompを用いて、38の下流タスクで評価する場合、プルーニングアプローチは、中規模および大規模でそれぞれCLIPScoreを2.6\%、1.7\%超える。
また,検索タスクでは,中規模と大規模において2.7%,4.5%の大幅な改善がみられた。
関連論文リスト
- Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - ASPIRE: Language-Guided Augmentation for Robust Image Classification [45.18975613672963]
ASPIRE(Language-guided Data Augmentation for SPurious correlation Removal)は,合成画像によるトレーニングデータセットの拡張において,素早い特徴を伴わずに有効な方法である。
まず、画像のテキスト記述から前景や背景の特徴を抽出し、その後、高度な言語誘導画像編集を行い、クラスラベルと突発的に相関する特徴を発見する。
最後に,テキスト・ツー・イメージ生成モデルをパーソナライズして,刺激的な特徴を伴わない多様なドメイン内画像を生成する。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Too Large; Data Reduction for Vision-Language Pre-Training [20.523430997393888]
本稿では,広範に使用されているVision-Language Pre-Trainingデータセットにおける画像テキストの不一致と高い冗長性の問題について検討する。
これらの問題に対処するために、TL;DRと呼ばれる効率的かつ簡単な視覚言語学習アルゴリズムを提案する。
まず、コードブックベースのエンコーダ・デコーダキャプタを開発し、代表サンプルを選定する。
次に、選択されたサンプルの原文キャプションを補完する新たなキャプションを生成し、テキスト画像の誤認識問題を緩和する。
論文 参考訳(メタデータ) (2023-05-31T17:59:03Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。