論文の概要: What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus
- arxiv url: http://arxiv.org/abs/2105.02732v2
- Date: Fri, 7 May 2021 17:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:31:08.493052
- Title: What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus
- Title(参考訳): 箱に何が入ってるの?
コモンクロールコーパスにおける望ましくない内容の分析
- Authors: Alexandra Sasha Luccioni, Joseph D. Viviano
- Abstract要約: 言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whereas much of the success of the current generation of neural language
models has been driven by increasingly large training corpora, relatively
little research has been dedicated to analyzing these massive sources of
textual data. In this exploratory analysis, we delve deeper into the Common
Crawl, a colossal web corpus that is extensively used for training language
models. We find that it contains a significant amount of undesirable content,
including hate speech and sexually explicit content, even after filtering
procedures. We conclude with a discussion of the potential impacts of this
content on language models and call for more mindful approach to corpus
collection and analysis.
- Abstract(参考訳): 現在のニューラル言語モデルの成功の多くは、ますます大規模なトレーニングコーパスによって推進されているが、これらの膨大なテキストデータを分析するための研究は、比較的少ない。
この探索的分析では、言語モデルのトレーニングに広く使われている巨大なWebコーパスであるCommon Crawlを深く掘り下げる。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
最後に、このコンテンツが言語モデルに与える影響について議論し、コーパスの収集と分析に対してより念入りなアプローチを求める。
関連論文リスト
- Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Sentiment Analysis Using Aligned Word Embeddings for Uralic Languages [1.0312968200748118]
本稿では,単語埋め込みを多数言語から4つの少数言語に翻訳する手法を提案する。
さらに、感情分析を行うために、英語データに基づいてトレーニングされた新しいニューラルネットワークモデルを提案する。
我々の研究は、最先端のニューラルモデルが絶滅危惧言語で使用できることを示している。
論文 参考訳(メタデータ) (2023-05-24T17:40:20Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Perplexed by Quality: A Perplexity-based Method for Adult and Harmful
Content Detection in Multilingual Heterogeneous Web Data [0.0]
我々は多言語不均一なWebデータにおいて、成人と有害なコンテンツを検出する様々な方法を探究する。
我々は、成人および有害なテキストデータのみを訓練し、与えられたしきい値以上の難易度値の文書を選択する。
このアプローチは、文書を事実上2つの異なるグループにクラスタリングし、パープレキシティのしきい値の選択を大幅に促進します。
論文 参考訳(メタデータ) (2022-12-20T17:14:45Z) - Assessing the impact of contextual information in hate speech detection [0.48369513656026514]
我々は,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。
このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-02T09:04:47Z) - On the Effect of Pretraining Corpora on In-context Learning by a
Large-scale Language Model [56.82120834538467]
韓国中心のGPT-3モデルにおいて,事前学習コーパスのソースとサイズが文脈内学習に与える影響について検討した。
テキスト内学習の性能はコーパス・ドメイン・ソースに大きく依存しており、事前学習コーパスのサイズがコンテキスト内学習の出現を決定するとは限らない。
論文 参考訳(メタデータ) (2022-04-28T13:59:54Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Know thy corpus! Robust methods for digital curation of Web corpora [0.0]
本稿では,Webコーパスのデジタルキュレーションのための新しいフレームワークを提案する。
これはそれらの構成や語彙などのパラメータを頑健に推定する。
論文 参考訳(メタデータ) (2020-03-13T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。