論文の概要: The Dark Side of Dataset Scaling: Evaluating Racial Classification in Multimodal Models
- arxiv url: http://arxiv.org/abs/2405.04623v1
- Date: Tue, 7 May 2024 19:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 15:54:51.561970
- Title: The Dark Side of Dataset Scaling: Evaluating Racial Classification in Multimodal Models
- Title(参考訳): データセットスケーリングのダークサイド:マルチモーダルモデルにおけるラシアル分類の評価
- Authors: Abeba Birhane, Sepehr Dehdashtian, Vinay Uday Prabhu, Vishnu Boddeti,
- Abstract要約: LAION400-MおよびLAION-2Bデータセットで学習した視覚言語モデルに対するデータセットスケーリングの下流への影響を評価する。
以上の結果から,トレーニングデータの増加に伴い,事前学習したCLIPモデルの人体画像の誤分類の可能性が高まった。
より小さなベースのViT-Bモデルでは、データセットが400Mから2Bのサンプルにスケールされた場合、黒人とラテン系の男性を犯罪として予測する確率は、それぞれ20%と47%減少する。
- 参考スコア(独自算出の注目度): 1.6076959385522371
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scale the model, scale the data, scale the GPU farms is the reigning sentiment in the world of generative AI today. While model scaling has been extensively studied, data scaling and its downstream impacts on model performance remain under-explored. This is particularly important in the context of multimodal datasets whose main source is the World Wide Web, condensed and packaged as the Common Crawl dump, which is known to exhibit numerous drawbacks. In this paper, we evaluate the downstream impact of dataset scaling on 14 visio-linguistic models (VLMs) trained on the LAION400-M and LAION-2B datasets by measuring racial and gender bias using the Chicago Face Dataset (CFD) as the probe. Our results show that as the training data increased, the probability of a pre-trained CLIP model misclassifying human images as offensive non-human classes such as chimpanzee, gorilla, and orangutan decreased, but misclassifying the same images as human offensive classes such as criminal increased. Furthermore, of the 14 Vision Transformer-based VLMs we evaluated, the probability of predicting an image of a Black man and a Latino man as criminal increases by 65% and 69%, respectively, when the dataset is scaled from 400M to 2B samples for the larger ViT-L models. Conversely, for the smaller base ViT-B models, the probability of predicting an image of a Black man and a Latino man as criminal decreases by 20% and 47%, respectively, when the dataset is scaled from 400M to 2B samples. We ground the model audit results in a qualitative and historical analysis, reflect on our findings and their implications for dataset curation practice, and close with a summary of mitigation mechanisms and ways forward. Content warning: This article contains racially dehumanising and offensive descriptions.
- Abstract(参考訳): モデルをスケールし、データをスケールし、GPUファームをスケールすることは、今日の生成AIの世界における支配的な感情である。
モデルスケーリングは広く研究されているが、データスケーリングとそのダウンストリームがモデルパフォーマンスに与える影響は未解明のままである。
これは、主要なソースがWorld Wide Webであり、Common Crawlダンプとしてまとめてパッケージ化されているマルチモーダルデータセットのコンテキストにおいて特に重要である。
本稿では,シカゴ・フェイス・データセット(CFD)をプローブとして,LAION400-MおよびLAION-2Bデータセットに基づいて訓練された14の視覚言語モデル(VLM)に対するデータセットスケーリングの下流への影響を評価する。
トレーニングデータの増加に伴い, チンパンジー, ゴリラ, オランウータンなどの攻撃的非ヒトクラスとして, 訓練済みのCLIPモデルが誤分類される可能性が低かったが, 犯罪などの人間の攻撃的クラスと同じ画像が誤分類されることが示唆された。
さらに、我々が評価した14のビジョントランスフォーマーベースのVLMのうち、より大きなViT-Lモデルに対してデータセットが400Mから2Bのサンプルにスケールされた場合、黒人とラテン系男性のイメージを犯罪として予測する確率は、それぞれ65%と69%増加した。
逆に、より小さなベースViT-Bモデルでは、データセットが400Mから2Bのサンプルにスケールされた場合、黒人とラテン系の男性を犯罪として予測する確率は、それぞれ20%と47%減少する。
モデル監査の結果を定性的かつ歴史的分析に基礎を置き、データセットキュレーションの実践における我々の発見とその意義を反映し、緩和メカニズムの要約と今後の方向性を概説する。
コンテンツ警告: 本記事は人種的に非人道的かつ攻撃的な記述を含む。
関連論文リスト
- Bridging the Gap: Generalising State-of-the-Art U-Net Models to
Sub-Saharan African Populations [37.59488403618245]
腫瘍セグメンテーションモデルにとって重要な課題は、多様な臨床環境に適応できる能力である。
2022年のBraTSコンペティションにおける第2位を確保したフレームワークを再現し、データセット合成がモデル性能に与える影響を調査した。
論文 参考訳(メタデータ) (2023-12-19T01:03:19Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Scaling Laws Do Not Scale [87.76714490248779]
大規模なAIモデルのトレーニングに使用されるデータセットのサイズが大きくなるにつれて、異なるコミュニティの数が増加する可能性がある、と私たちは主張する。
その結果、データセットで表されるコミュニティが、モデルパフォーマンスを評価するために使用されるメトリクスによってキャプチャされない値や嗜好を持つリスクが増大する。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - On Hate Scaling Laws For Data-Swamps [14.891493485229251]
HCR(Hate Content Rate)測定値で測定すると,データセットにおけるヘイトフルコンテンツの存在が約12%増加した。
スケールが大きくなるにつれて、他の7つの攻撃的クラスに比べて、人間の顔の画像と人間のクラスを関連付ける傾向が半減した。
黒人女性のカテゴリーでは、モデルを犯罪者のクラスに関連付ける傾向は2倍になり、黒人男性の顔のクインタップリングは4倍になった。
論文 参考訳(メタデータ) (2023-06-22T18:00:17Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Zero-shot racially balanced dataset generation using an existing biased
StyleGAN2 [5.463417677777276]
本稿では, 偏りのある生成モデルであるStyleGAN2を用いて, 人口統計学的に多様な合成個体の画像を作成する手法を提案する。
1レースあたり50,000のIDを含むバランスの取れたデータセットで顔認識モデルをトレーニングすることで、パフォーマンスを改善し、実際のデータセットでトレーニングされたモデルに存在した可能性のあるバイアスを最小限にすることができる。
論文 参考訳(メタデータ) (2023-05-12T18:07:10Z) - Quantifying Human Bias and Knowledge to guide ML models during Training [0.0]
トレーニングプロセスに人間を含めることで、歪んだデータセットを扱うための実験的なアプローチを導入する。
我々は、データセットの特徴の重要性をランク付けし、ランクアグリゲーションを通じて、モデルの初期重みバイアスを決定するよう人間に求める。
我々は、集団的人間の偏見によって、機械学習モデルがバイアス標本の代わりに真の人口についての洞察を学習できることを示した。
論文 参考訳(メタデータ) (2022-11-19T20:49:07Z) - Assessing Dataset Bias in Computer Vision [0.0]
偏見は、訓練するモデルに伝播する傾向があり、しばしば少数派ではパフォーマンスが劣る。
UTKFaceデータセットのサンプルに、アンダーサンプリング、幾何変換、可変オートエンコーダ(VAE)、生成逆ネットワーク(GAN)など、いくつかの拡張手法を適用する。
FairFaceモデルと比較して、複数のデータセット上の年齢と民族の分類において、我々のモデルが全体的なパフォーマンスと一貫性を向上できることを示しました。
論文 参考訳(メタデータ) (2022-05-03T22:45:49Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。