論文の概要: SIEVE: Multimodal Dataset Pruning Using Image Captioning Models
- arxiv url: http://arxiv.org/abs/2310.02110v1
- Date: Tue, 3 Oct 2023 14:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 13:50:10.545797
- Title: SIEVE: Multimodal Dataset Pruning Using Image Captioning Models
- Title(参考訳): SIEVE:画像キャプションモデルを用いたマルチモーダルデータセットプルーニング
- Authors: Anas Mahmoud, Mostafa Elhoushi, Amro Abbas, Yu Yang, Newsha Ardalani,
Hugh Leather, Ari Morcos
- Abstract要約: Vision-Language Models (VLM) は、大規模で多種多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
事前訓練されたモデルからCLIPScoreを使用して、高度に整列したサンプルを使用したモデルのみをトレーニングすることが、プルーニングの最も成功した方法の1つである。
このアプローチには, 1) 事前学習したCLIPモデルによる相関関係による偽陽性, 2) ハードと悪いサンプルの識別不良による偽陰性, 3) 事前学習したCLIPデータセットに類似したサンプルに対するバイアス付きランキングなど,複数の制限がある。
- 参考スコア(独自算出の注目度): 11.362835828985494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are pretrained on large, diverse, and noisy
web-crawled datasets. This underscores the critical need for dataset pruning,
as the quality of these datasets is strongly correlated with the performance of
VLMs on downstream tasks. Using CLIPScore from a pretrained model to only train
models using highly-aligned samples is one of the most successful methods for
pruning.We argue that this approach suffers from multiple limitations
including: 1) false positives due to spurious correlations captured by the
pretrained CLIP model, 2) false negatives due to poor discrimination between
hard and bad samples, and 3) biased ranking towards samples similar to the
pretrained CLIP dataset. We propose a pruning method, SIEVE, that employs
synthetic captions generated by image-captioning models pretrained on small,
diverse, and well-aligned image-text pairs to evaluate the alignment of noisy
image-text pairs. To bridge the gap between the limited diversity of generated
captions and the high diversity of alternative text (alt-text), we estimate the
semantic textual similarity in the embedding space of a language model
pretrained on billions of sentences. Using DataComp, a multimodal dataset
filtering benchmark, we achieve state-of-the-art performance on the large scale
pool, and competitive results on the medium scale pool, surpassing
CLIPScore-based filtering by 1.7% and 2.6% on average, on 38 downstream tasks.
- Abstract(参考訳): Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
これは、これらのデータセットの品質がダウンストリームタスクにおけるvlmのパフォーマンスと強く関連しているため、データセットのプルーニングに対する重要なニーズを強調する。
事前訓練されたモデルからCLIPScoreを使用して、高度に整列されたサンプルを使用したモデルのみをトレーニングすることは、プルーニングの最も成功した方法の1つである。
1)プレトレーニングCLIPモデルにより得られた刺激的相関による偽陽性。
2)硬質試料と悪質試料の判別不良による偽陰性,および
3) 事前訓練されたCLIPデータセットと同様のサンプルに対するバイアス付きランキング。
本稿では,小型・多種多様な画像テキストペア上で事前訓練された画像キャプションモデルから生成した合成キャプションを用いて,ノイズの多い画像テキストペアのアライメントを評価するプルーニング手法SIEVEを提案する。
数十億の文に事前学習された言語モデルの埋め込み空間における意味的テクストの類似度を推定し,生成キャプションの限定的多様性と代替テキスト(alt-text)の多様性とのギャップを橋渡しする。
マルチモーダルデータセットフィルタリングベンチマークであるDataCompを用いて、38のダウンストリームタスクにおいて、大規模プールにおける最先端のパフォーマンスと中規模プールにおける競争結果を達成し、CLIPScoreベースのフィルタリングを平均1.7%、平均2.6%上回った。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。
我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。