論文の概要: On Hate Scaling Laws For Data-Swamps
- arxiv url: http://arxiv.org/abs/2306.13141v2
- Date: Wed, 28 Jun 2023 18:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 16:25:20.802960
- Title: On Hate Scaling Laws For Data-Swamps
- Title(参考訳): データスワップのヘイトスケーリング法則について
- Authors: Abeba Birhane, Vinay Prabhu, Sang Han, Vishnu Naresh Boddeti
- Abstract要約: HCR(Hate Content Rate)測定値で測定すると,データセットにおけるヘイトフルコンテンツの存在が約12%増加した。
スケールが大きくなるにつれて、他の7つの攻撃的クラスに比べて、人間の顔の画像と人間のクラスを関連付ける傾向が半減した。
黒人女性のカテゴリーでは、モデルを犯罪者のクラスに関連付ける傾向は2倍になり、黒人男性の顔のクインタップリングは4倍になった。
- 参考スコア(独自算出の注目度): 14.891493485229251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: `Scale the model, scale the data, scale the GPU-farms' is the reigning
sentiment in the world of generative AI today. While model scaling has been
extensively studied, data scaling and its downstream impacts remain under
explored. This is especially of critical importance in the context of
visio-linguistic datasets whose main source is the World Wide Web, condensed
and packaged as the CommonCrawl dump. This large scale data-dump, which is
known to have numerous drawbacks, is repeatedly mined and serves as the
data-motherlode for large generative models. In this paper, we: 1) investigate
the effect of scaling datasets on hateful content through a comparative audit
of the LAION-400M and LAION-2B-en, containing 400 million and 2 billion samples
respectively, and 2) evaluate the downstream impact of scale on
visio-linguistic models trained on these dataset variants by measuring racial
bias of the models trained on them using the Chicago Face Dataset (CFD) as a
probe. Our results show that 1) the presence of hateful content in datasets,
when measured with a Hate Content Rate (HCR) metric on the inferences of the
Pysentimiento hate-detection Natural Language Processing (NLP) model, increased
by nearly $12\%$ and 2) societal biases and negative stereotypes were also
exacerbated with scale on the models we evaluated. As scale increased, the
tendency of the model to associate images of human faces with the `human being'
class over 7 other offensive classes reduced by half. Furthermore, for the
Black female category, the tendency of the model to associate their faces with
the `criminal' class doubled, while quintupling for Black male faces. We
present a qualitative and historical analysis of the model audit results,
reflect on our findings and its implications for dataset curation practice, and
close with a summary of our findings and potential future work to be done in
this area.
- Abstract(参考訳): 「モデルをスケールし、データをスケールし、GPUファームをスケール」は、今日の生成AIの世界における支配的な感情である。
モデルスケーリングは広く研究されているが、データスケーリングとその下流への影響はまだ検討中である。
これは、主要なソースがWorld Wide Webであり、CommonCrawlダンプとしてまとめてパッケージ化されている視覚言語データセットのコンテキストにおいて、特に重要である。
この大規模データダンプは、多くの欠点があることが知られているが、繰り返し採掘され、大規模生成モデルのデータメーザーロデとして機能する。
本稿では,
1)4億試料と20億試料を含むlaion-400mとlaion-2b-enの比較監査による憎悪コンテンツに対するデータセットのスケーリングの効果の検討
2)シカゴ・フェイス・データセット(CFD)を用いてトレーニングしたモデルの人種的偏りを測定することにより,これらのデータセット変種に基づいて訓練された視覚言語モデルに対するスケールのダウンストリームの影響を評価する。
私たちの結果は
1)データセットにおける憎悪コンテンツの存在は,pysentimiento hate-detection natural language processing (nlp)モデルの推論に基づくヘイトコンテンツ率 (hcr) 測定値を用いて測定すると,約12-%$で増加した。
2) 社会バイアスと負のステレオタイプは, 評価したモデルに対するスケールとともに悪化した。
スケールが大きくなるにつれて、人間の顔の画像と「人間」のクラスを関連付けるモデルが、他の7つの攻撃クラスを半分に減らす傾向が見られた。
さらに、黒人女性のカテゴリーでは、モデルが「犯罪」クラスと顔を関連付ける傾向が2倍になり、黒人男性の顔のクインツップリングは2倍になった。
我々は,モデル監査結果の質的・歴史的分析を行い,我々の発見とそのデータセットのキュレーション実践への影響を反映するとともに,この領域で実施すべき知見と今後の課題について概説する。
関連論文リスト
- Understanding the Interplay of Scale, Data, and Bias in Language Models: A Case Study with BERT [4.807994469764776]
モデルスケールと事前学習データが学習した社会バイアスに与える影響について検討する。
実験の結果,事前学習したデータは,モデルスケールで上流バイアスがどのように進化するかに大きな影響を及ぼすことがわかった。
データとモデルスケールの複雑な相互作用に光を当て、それが具体的なバイアスにどのように変換されるかを調査しました。
論文 参考訳(メタデータ) (2024-07-25T23:09:33Z) - The Dark Side of Dataset Scaling: Evaluating Racial Classification in Multimodal Models [1.6076959385522371]
LAION400-MおよびLAION-2Bデータセットで学習した視覚言語モデルに対するデータセットスケーリングの下流への影響を評価する。
以上の結果から,トレーニングデータの増加に伴い,事前学習したCLIPモデルの人体画像の誤分類の可能性が高まった。
より小さなベースのViT-Bモデルでは、データセットが400Mから2Bのサンプルにスケールされた場合、黒人とラテン系の男性を犯罪として予測する確率は、それぞれ20%と47%減少する。
論文 参考訳(メタデータ) (2024-05-07T19:11:10Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Inverse scaling can become U-shaped [126.64521446943155]
言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスを改善するために実証的に示されている。
本稿では,これらの逆スケーリングタスクについて詳しく検討する。
Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。
論文 参考訳(メタデータ) (2022-11-03T17:26:44Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。