論文の概要: Multimodal datasets: misogyny, pornography, and malignant stereotypes
- arxiv url: http://arxiv.org/abs/2110.01963v1
- Date: Tue, 5 Oct 2021 11:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-12 12:07:51.350514
- Title: Multimodal datasets: misogyny, pornography, and malignant stereotypes
- Title(参考訳): マルチモーダルデータセット:誤用、ポルノグラフィー、悪性ステレオタイプ
- Authors: Abeba Birhane, Vinay Uday Prabhu and Emmanuel Kahembwe
- Abstract要約: 最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。
このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
- 参考スコア(独自算出の注目度): 2.8682942808330703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We have now entered the era of trillion parameter machine learning models
trained on billion-sized datasets scraped from the internet. The rise of these
gargantuan datasets has given rise to formidable bodies of critical work that
has called for caution while generating these large datasets. These address
concerns surrounding the dubious curation practices used to generate these
datasets, the sordid quality of alt-text data available on the world wide web,
the problematic content of the CommonCrawl dataset often used as a source for
training large language models, and the entrenched biases in large-scale
visio-linguistic models (such as OpenAI's CLIP model) trained on opaque
datasets (WebImageText). In the backdrop of these specific calls of caution, we
examine the recently released LAION-400M dataset, which is a CLIP-filtered
dataset of Image-Alt-text pairs parsed from the Common-Crawl dataset. We found
that the dataset contains, troublesome and explicit images and text pairs of
rape, pornography, malign stereotypes, racist and ethnic slurs, and other
extremely problematic content. We outline numerous implications, concerns and
downstream harms regarding the current state of large scale datasets while
raising open questions for various stakeholders including the AI community,
regulators, policy makers and data subjects.
- Abstract(参考訳): 私たちは今や、インターネットから取り除かれた数十億規模のデータセットでトレーニングされた1兆のパラメータ機械学習モデルの時代に入りました。
これらのガーガントゥアンデータセットの台頭は、これらの大きなデータセットを生成する際に注意を喚起する重要な作業の実体を生み出した。
これらの課題は、これらのデータセットの生成に使用される疑わしいキュレーションプラクティス、ワールドワイドウェブで利用可能なalt-textデータの厳格な品質、大きな言語モデルのトレーニングのソースとしてよく使用されるCommonCrawlデータセットの問題点、不透明なデータセット(WebImageText)でトレーニングされた大規模ビオ・言語モデル(OpenAIのCLIPモデルなど)の定着したバイアスに関するものだ。
これらの注意喚起の背景として、最近リリースされたLAION-400Mデータセット(Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセット)について検討する。
このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
我々は、aiコミュニティ、規制当局、政策立案者、データ科目を含む様々な利害関係者に対してオープンな質問を行いながら、大規模データセットの現状に関する多くの影響、懸念、下流の損害について概説する。
関連論文リスト
- RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Uncurated Image-Text Datasets: Shedding Light on Demographic Bias [21.421722941901123]
MSCOCOのような小さいが手動で注釈付けされたデータセットでさえ、社会的バイアスの影響を受けている。
最初のコントリビューションは、ビジョンと言語モデルのトレーニングに広く使用されている、Google Conceptual Captionsデータセットの一部に注釈を付けることです。
第2の貢献は、アノテーションの包括的な分析を行うことであり、どのように異なる人口集団が表現されるかに焦点を当てている。
第3の貢献は3つの一般的な視覚・言語タスクを評価することであり、社会的バイアスはそれらすべてにおいて永続的な問題であることを示している。
論文 参考訳(メタデータ) (2023-04-06T02:33:51Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。