論文の概要: CReHate: Cross-cultural Re-annotation of English Hate Speech Dataset
- arxiv url: http://arxiv.org/abs/2308.16705v1
- Date: Thu, 31 Aug 2023 13:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 14:22:26.888968
- Title: CReHate: Cross-cultural Re-annotation of English Hate Speech Dataset
- Title(参考訳): CReHate: 英語のヘイトスピーチデータセットの異文化的再注釈
- Authors: Nayeon Lee, Chani Jung, Junho Myung, Jiho Jin, Juho Kim, Alice Oh
- Abstract要約: CReHateはサンプルSBICデータセットの異文化的な再アノテーションである。
このデータセットにはオーストラリア、シンガポール、南アフリカ、イギリス、米国という5つの国からのアノテーションが含まれている。
詳細な統計分析では、全国で合意に達したサンプルは59.4%に過ぎず、国籍による大きな違いが浮き彫りになっている。
- 参考スコア(独自算出の注目度): 44.80129765662094
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: English datasets predominantly reflect the perspectives of certain
nationalities, which can lead to cultural biases in models and datasets. This
is particularly problematic in tasks heavily influenced by subjectivity, such
as hate speech detection. To delve into how individuals from different
countries perceive hate speech, we introduce CReHate, a cross-cultural
re-annotation of the sampled SBIC dataset. This dataset includes annotations
from five distinct countries: Australia, Singapore, South Africa, the United
Kingdom, and the United States. Our thorough statistical analysis highlights
significant differences based on nationality, with only 59.4% of the samples
achieving consensus among all countries. We also introduce a culturally
sensitive hate speech classifier via transfer learning, adept at capturing
perspectives of different nationalities. These findings underscore the need to
re-evaluate certain aspects of NLP research, especially with regard to the
nuanced nature of hate speech in the English language.
- Abstract(参考訳): 英語のデータセットは、主に特定の国籍の視点を反映しており、モデルやデータセットの文化的バイアスにつながる可能性がある。
これは、ヘイトスピーチ検出のような主観性に強く影響されたタスクにおいて特に問題となる。
異なる国の個人がヘイトスピーチをどのように感じているかを調べるために、サンプルSBICデータセットの異文化間の再注釈であるCReHateを紹介します。
このデータセットにはオーストラリア、シンガポール、南アフリカ、イギリス、米国という5つの国からのアノテーションが含まれている。
徹底的な統計分析では、国籍による有意な差異が強調され、全国でコンセンサスに達するサンプルは59.4%に過ぎなかった。
また,文化に敏感なヘイトスピーチ分類器も導入し,異なる民族の視点を捉えたトランスファーラーニングを行った。
これらの結果は、特に英語におけるヘイトスピーチのニュアンスな性質に関して、NLP研究の特定の側面を再評価する必要性を浮き彫りにした。
関連論文リスト
- Multi3Hate: Multimodal, Multilingual, and Multicultural Hate Speech Detection with Vision-Language Models [11.82100047858478]
マルチモーダルおよびマルチ言語並列ヘイトスピーチデータセットを作成し、マルチ3Hateと呼ばれるマルチカルチャーアノテータセットで注釈付けする。
5つの言語(英語、ドイツ語、スペイン語、ヒンディー語、マンダリン)にまたがる300のミームサンプルを含んでいる。
文化的背景がデータセットにおけるマルチモーダルヘイトスピーチのアノテーションに大きく影響することを示し、各国間の平均的なペアワイド合意は、ランダムに選択されたアノテータグループよりもわずか74%低い。
論文 参考訳(メタデータ) (2024-11-06T13:06:43Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets [10.264294331399434]
ヘイトスピーチデータセットは伝統的に言語によって開発されてきた。
HSデータセットにおける文化バイアスを,言語と地理の2つの関係する文化的プロキシを利用して評価する。
英語、アラビア語、スペイン語のHSデータセットは、地理的に文化的に強い偏見を示す。
論文 参考訳(メタデータ) (2024-04-27T12:10:10Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - LAHM : Large Annotated Dataset for Multi-Domain and Multilingual Hate
Speech Identification [2.048680519934008]
本稿では,英語,ヒンディー語,アラビア語,フランス語,ドイツ語,スペイン語の多言語ヘイトスピーチ分析データセットを提案する。
本論文は、これらの6言語において、これらの5つの広い領域において、様々な種類のヘイトスピーチを識別する問題に最初に対処するものである。
論文 参考訳(メタデータ) (2023-04-03T12:03:45Z) - KOLD: Korean Offensive Language Dataset [11.699797031874233]
韓国の攻撃言語データセット(KOLD)と40kのコメントに,攻撃性,目標,対象とするグループ情報をラベル付けしたコメントを提示する。
タイトル情報は文脈として役立ち、特にコメントで省略された場合、憎悪の対象を識別するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T13:58:45Z) - Korean Online Hate Speech Dataset for Multilabel Classification: How Can
Social Science Improve Dataset on Hate Speech? [0.4893345190925178]
韓国のネットヘイトスピーチデータセットに7つのカテゴリーのヘイトスピーチを分類することを提案する。
私たちの35Kデータセットは、Krippendorff氏のAlphaレーベルによる24Kのオンラインコメントで構成されています。
従来の二分的ヘイトや非ヘイト二分法とは異なり、文化と言語の両方の文脈を考慮したデータセットを設計した。
論文 参考訳(メタデータ) (2022-04-07T07:29:06Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。