論文の概要: Sieve: Multimodal Dataset Pruning Using Image Captioning Models
- arxiv url: http://arxiv.org/abs/2310.02110v2
- Date: Sun, 10 Mar 2024 19:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:57:48.021459
- Title: Sieve: Multimodal Dataset Pruning Using Image Captioning Models
- Title(参考訳): Sieve:イメージキャプションモデルを用いたマルチモーダルデータセットプルーニング
- Authors: Anas Mahmoud, Mostafa Elhoushi, Amro Abbas, Yu Yang, Newsha Ardalani,
Hugh Leather, Ari Morcos
- Abstract要約: Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
- 参考スコア(独自算出の注目度): 11.362835828985494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are pretrained on large, diverse, and noisy
web-crawled datasets. This underscores the critical need for dataset pruning,
as the quality of these datasets is strongly correlated with the performance of
VLMs on downstream tasks. Using CLIPScore from a pretrained model to only train
models using highly-aligned samples is one of the most successful methods for
pruning. We argue that this approach suffers from multiple limitations
including: false positives and negatives due to CLIP's pretraining on noisy
labels. We propose a pruning signal, Sieve, that employs synthetic captions
generated by image-captioning models pretrained on small, diverse, and
well-aligned image-text pairs to evaluate the alignment of noisy image-text
pairs. To bridge the gap between the limited diversity of generated captions
and the high diversity of alternative text (alt-text), we estimate the semantic
textual similarity in the embedding space of a language model pretrained on
unlabeled text corpus. Using DataComp, a multimodal dataset filtering
benchmark, when evaluating on 38 downstream tasks, our pruning approach,
surpasses CLIPScore by 2.6\% and 1.7\% on medium and large scale respectively.
In addition, on retrieval tasks, Sieve leads to a significant improvement of
2.7% and 4.5% on medium and large scale respectively.
- Abstract(参考訳): Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
これは、これらのデータセットの品質がダウンストリームタスクにおけるvlmのパフォーマンスと強く関連しているため、データセットのプルーニングに対する重要なニーズを強調する。
事前訓練されたモデルからCLIPScoreを使用して、高度に整列したサンプルを使用したモデルのみをトレーニングすることが、プルーニングの最も成功した方法の1つである。
このアプローチには,CLIPがノイズラベルを事前学習しているため,偽陽性と否定の2つの制限がある。
本稿では,小型で多彩な画像テキストペアに事前学習した画像キャプチャモデルによって生成された合成キャプションを用いて,ノイズの多い画像テキストペアのアライメントを評価するプルーニング信号であるsieveを提案する。
生成した字幕の多様性と代替テキストの多様性(alt-text)とのギャップを埋めるため,ラベルなしテキストコーパスに事前学習した言語モデルの埋め込み空間における意味的テキスト類似度を推定する。
マルチモーダルデータセットフィルタリングベンチマークであるDataCompを用いて、38の下流タスクで評価する場合、プルーニングアプローチは、中規模および大規模でそれぞれCLIPScoreを2.6\%、1.7\%超える。
また,検索タスクでは,中規模と大規模において2.7%,4.5%の大幅な改善がみられた。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。
我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。