論文の概要: CREHate: A CRoss-cultural English Hate Speech Dataset
- arxiv url: http://arxiv.org/abs/2308.16705v2
- Date: Wed, 1 Nov 2023 12:58:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:03:45.485135
- Title: CREHate: A CRoss-cultural English Hate Speech Dataset
- Title(参考訳): CREHate: CRoss文化の英語ヘイトスピーチデータセット
- Authors: Nayeon Lee, Chani Jung, Junho Myung, Jiho Jin, Jose Camacho-Collados,
Juho Kim, Alice Oh
- Abstract要約: ほとんどのNLPデータセットは言語話者の文化的多様性を無視しており、ヘイトスピーチ検出において重大な欠点をもたらす。
そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
- 参考スコア(独自算出の注目度): 46.386059125840376
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most NLP datasets neglect the cultural diversity among language speakers,
resulting in a critical shortcoming in hate speech detection and other
culturally sensitive tasks. To address this, we introduce CREHate, a
CRoss-cultural English Hate speech dataset. To construct CREHate, we follow a
two-step procedure: 1) culture-specific post collection and 2) cross-cultural
annotation. We sample posts from the SBIC dataset, which predominantly
represents North America, and collect posts from four geographically diverse
English-speaking countries using culture-specific hate speech keywords that we
retrieve from our survey. Annotations are then collected from those four
English-speaking countries plus the US to establish representative labels for
each country. Our analysis highlights statistically significant disparities in
cross-cultural hate speech annotations. Only 56.2% of the posts in CREHate
achieve consensus among all five countries, with a peak pairwise disagreement
rate of 26%. The annotations show that label disagreements tend to come from
the inherent cultural context, subjectivity, and ambiguity of the posts.
Lastly, we develop cross-cultural hate speech classifiers that are more
accurate at predicting each country's labels than the monocultural classifiers.
This confirms the utility of CREHate for constructing culturally sensitive hate
speech classifiers.
- Abstract(参考訳): ほとんどのNLPデータセットは言語話者の文化的多様性を無視しており、ヘイトスピーチの検出やその他の文化的に敏感なタスクに重大な欠点をもたらす。
そこで我々は,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
CREHateの構築には2段階の手順を踏襲する。
1)文化特化ポストコレクション及び
2)異文化間アノテーション。
北米を代表するSBICデータセットからの投稿をサンプリングし、我々の調査から得られた文化固有のヘイトスピーチキーワードを用いて、地理的に多様な英語を話す4カ国からの投稿を収集した。
その後、英語圏の4カ国とアメリカ合衆国から注釈が集められ、各国の代表ラベルが設定される。
本分析は,異文化間ヘイトスピーチアノテーションにおける統計的に有意な相違を明らかにする。
クレハーテのポストの56.2%が5か国全てで合意に達しており、対関係の意見の不一致率は26%である。
注釈は、ラベルの不一致は、固有の文化的文脈、主観性、そしてポストの曖昧さから生じる傾向があることを示している。
最後に, 異文化間ヘイトスピーチ分類器を開発し, 単一文化分類器よりも各国のラベルを精度良く予測する。
これは、文化的に敏感なヘイトスピーチ分類器を構築するためのCREHateの有用性を確認する。
関連論文リスト
- Multi3Hate: Multimodal, Multilingual, and Multicultural Hate Speech Detection with Vision-Language Models [11.82100047858478]
マルチモーダルおよびマルチ言語並列ヘイトスピーチデータセットを作成し、マルチ3Hateと呼ばれるマルチカルチャーアノテータセットで注釈付けする。
5つの言語(英語、ドイツ語、スペイン語、ヒンディー語、マンダリン)にまたがる300のミームサンプルを含んでいる。
文化的背景がデータセットにおけるマルチモーダルヘイトスピーチのアノテーションに大きく影響することを示し、各国間の平均的なペアワイド合意は、ランダムに選択されたアノテータグループよりもわずか74%低い。
論文 参考訳(メタデータ) (2024-11-06T13:06:43Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets [10.264294331399434]
ヘイトスピーチデータセットは伝統的に言語によって開発されてきた。
HSデータセットにおける文化バイアスを,言語と地理の2つの関係する文化的プロキシを利用して評価する。
英語、アラビア語、スペイン語のHSデータセットは、地理的に文化的に強い偏見を示す。
論文 参考訳(メタデータ) (2024-04-27T12:10:10Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - LAHM : Large Annotated Dataset for Multi-Domain and Multilingual Hate
Speech Identification [2.048680519934008]
本稿では,英語,ヒンディー語,アラビア語,フランス語,ドイツ語,スペイン語の多言語ヘイトスピーチ分析データセットを提案する。
本論文は、これらの6言語において、これらの5つの広い領域において、様々な種類のヘイトスピーチを識別する問題に最初に対処するものである。
論文 参考訳(メタデータ) (2023-04-03T12:03:45Z) - KOLD: Korean Offensive Language Dataset [11.699797031874233]
韓国の攻撃言語データセット(KOLD)と40kのコメントに,攻撃性,目標,対象とするグループ情報をラベル付けしたコメントを提示する。
タイトル情報は文脈として役立ち、特にコメントで省略された場合、憎悪の対象を識別するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T13:58:45Z) - Korean Online Hate Speech Dataset for Multilabel Classification: How Can
Social Science Improve Dataset on Hate Speech? [0.4893345190925178]
韓国のネットヘイトスピーチデータセットに7つのカテゴリーのヘイトスピーチを分類することを提案する。
私たちの35Kデータセットは、Krippendorff氏のAlphaレーベルによる24Kのオンラインコメントで構成されています。
従来の二分的ヘイトや非ヘイト二分法とは異なり、文化と言語の両方の文脈を考慮したデータセットを設計した。
論文 参考訳(メタデータ) (2022-04-07T07:29:06Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。