論文の概要: Who's in and who's out? A case study of multimodal CLIP-filtering in DataComp
- arxiv url: http://arxiv.org/abs/2405.08209v2
- Date: Wed, 09 Oct 2024 19:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:30:03.824683
- Title: Who's in and who's out? A case study of multimodal CLIP-filtering in DataComp
- Title(参考訳): 誰が出ているのか? DataCompにおけるマルチモーダルCLIPフィルタリングの事例研究
- Authors: Rachel Hong, William Agnew, Tadayoshi Kohno, Jamie Morgenstern,
- Abstract要約: 画像テキストデータフィルタリングにはバイアスがあり、値レイデンであることを示す。
いくつかの差し迫った人口集団に関するデータは、排除率の上昇に関連している。
私たちの結論は、データセットの作成とフィルタリングのプラクティスに根本的な変更が必要であることを示している。
- 参考スコア(独自算出の注目度): 13.749279800238092
- License:
- Abstract: As training datasets become increasingly drawn from unstructured, uncontrolled environments such as the web, researchers and industry practitioners have increasingly relied upon data filtering techniques to "filter out the noise" of web-scraped data. While datasets have been widely shown to reflect the biases and values of their creators, in this paper we contribute to an emerging body of research that assesses the filters used to create these datasets. We show that image-text data filtering also has biases and is value-laden, encoding specific notions of what is counted as "high-quality" data. In our work, we audit a standard approach of image-text CLIP-filtering on the academic benchmark DataComp's CommonPool by analyzing discrepancies of filtering through various annotation techniques across multiple modalities of image, text, and website source. We find that data relating to several imputed demographic groups -- such as LGBTQ+ people, older women, and younger men -- are associated with higher rates of exclusion. Moreover, we demonstrate cases of exclusion amplification: not only are certain marginalized groups already underrepresented in the unfiltered data, but CLIP-filtering excludes data from these groups at higher rates. The data-filtering step in the machine learning pipeline can therefore exacerbate representation disparities already present in the data-gathering step, especially when existing filters are designed to optimize a specifically-chosen downstream performance metric like zero-shot image classification accuracy. Finally, we show that the NSFW filter fails to remove sexually-explicit content from CommonPool, and that CLIP-filtering includes several categories of copyrighted content at high rates. Our conclusions point to a need for fundamental changes in dataset creation and filtering practices.
- Abstract(参考訳): トレーニングデータセットが、Webのような構造化されていない、制御されていない環境から引き出されていくにつれて、研究者や業界の実践者は、Webスクラッドデータの"ノイズを除去する"ために、データフィルタリング技術にますます依存している。
データセットは、作成者のバイアスや価値観を反映するものとして広く示されているが、本論文では、これらのデータセットの作成に使用されるフィルタを評価するための、新たな研究団体に貢献する。
画像テキストデータフィルタリングにもバイアスがあり、値ラデンであり、「高品質」なデータとして数えられるものの特定の概念を符号化していることを示す。
本研究では, 画像, テキスト, ウェブサイトソースの多様性にまたがる様々なアノテーション技術を通して, フィルタリングの相違を解析することにより, 学術ベンチマークDataComp's CommonPoolにおける画像テキストCLIP-filteringの標準的アプローチを監査する。
LGBTQ+の人々、年上の女性、若い男性など、いくつかの不適切な人口集団に関するデータは、排除率の上昇に関連していることがわかった。
さらに, 排除増幅の事例として, フィルタされていないデータにすでに疎外化されたグループが存在するだけでなく, CLIP-filtering はこれらのグループからのデータを高いレートで除外する。
機械学習パイプラインにおけるデータフィルタリングステップは、特にゼロショット画像分類精度などの特定の下流パフォーマンスメトリックを最適化するように、既存のフィルタが設計されている場合、データ収集ステップにすでに存在する表現格差を悪化させる可能性がある。
最後に、NSFWフィルタは、CommonPoolから性的に要求されたコンテンツを削除せず、CLIPフィルタリングには、高いレートで著作権のあるコンテンツのカテゴリがいくつか含まれていることを示す。
私たちの結論は、データセットの作成とフィルタリングのプラクティスに根本的な変更が必要であることを示している。
関連論文リスト
- HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts [49.21764163995419]
本稿では,HyPerbolic Entailment Filtering (HYPE)を導入し,ノイズの多い画像とテキストのペアのデータセットから有意で整合したデータを抽出する。
HYPEは、フィルタリング効率を大幅に改善するだけでなく、DataCompベンチマークで新しい最先端を設定できる。
このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2024-04-26T16:19:55Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data
Filtering [23.68112988933411]
本稿では,DataComp チャレンジに参加する際の学習と解決について述べる。
我々のフィルタリング戦略は, 単一モダリティフィルタリング, クロスモダリティフィルタリング, データ分散アライメントの3段階を含む。
提案手法は,3つのタスクの平均的なパフォーマンスに対して4%以上,ImageNetでは2%以上,DataComp論文のベストメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-09-27T19:10:43Z) - Devil in the Number: Towards Robust Multi-modality Data Filter [12.33356004550808]
T-MARSは、画像中のテキストを検出してマスキングし、CLIPスコアでフィルタリングすることで、高品質なデータフィルタリングを実現する。
テキストの内容に含まれる数字などの冗長な情報のかなりの割合を観察する。
提案するテキストマスキングフィルタは,データの上位40%を選択する際に,元のCLIPスコアフィルタよりも優れている。
論文 参考訳(メタデータ) (2023-09-24T22:52:35Z) - A Critical Analysis of Classifier Selection in Learned Bloom Filters [0.3359875577705538]
フィルタ構築に使用されるデータの"複雑さ"は、そのパフォーマンスに大きく影響する可能性がある。
本稿では,学習ブルームフィルタの設計,解析,実装のための新しい手法を提案する。
提案手法とサポートソフトウェアは有効かつ有用であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-11-28T17:17:18Z) - Message Passing in Graph Convolution Networks via Adaptive Filter Banks [81.12823274576274]
我々は BankGCN と呼ばれる新しいグラフ畳み込み演算子を提案する。
グラフ上のマルチチャネル信号をサブスペースに分解し、各サブスペース内の特定の情報を適応フィルタで処理する。
ベンチマークグラフデータセットの集合におけるグラフ分類における優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-06-18T04:23:34Z) - Data Agnostic Filter Gating for Efficient Deep Networks [72.4615632234314]
現在のフィルタプルーニング法は主に特徴写像を利用してフィルタの重要なスコアを生成し、より小さなスコアのプルーンを生成する。
本稿では,Daggerモジュールと呼ばれる補助的ネットワークを用いてプルーニングを誘導するデータフィルタプルーニング手法を提案する。
さらに,特定のFLOP制約でプルーネフィルタを支援するために,明示的なFLOPを意識した正規化を活用して,プルーニングフィルタを直接対象のFLOPに向けて推進する。
論文 参考訳(メタデータ) (2020-10-28T15:26:40Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。