論文の概要: Korean Online Hate Speech Dataset for Multilabel Classification: How Can
Social Science Improve Dataset on Hate Speech?
- arxiv url: http://arxiv.org/abs/2204.03262v2
- Date: Fri, 8 Apr 2022 04:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 11:40:41.100286
- Title: Korean Online Hate Speech Dataset for Multilabel Classification: How Can
Social Science Improve Dataset on Hate Speech?
- Title(参考訳): マルチラベル分類のための韓国のオンラインヘイトスピーチデータセット : 社会科学がヘイトスピーチのデータセットをどのように改善するか
- Authors: TaeYoung Kang, Eunrang Kwon, Junbum Lee, Youngeun Nam, Junmo Song,
JeongKyu Suh
- Abstract要約: 韓国のネットヘイトスピーチデータセットに7つのカテゴリーのヘイトスピーチを分類することを提案する。
私たちの35Kデータセットは、Krippendorff氏のAlphaレーベルによる24Kのオンラインコメントで構成されています。
従来の二分的ヘイトや非ヘイト二分法とは異なり、文化と言語の両方の文脈を考慮したデータセットを設計した。
- 参考スコア(独自算出の注目度): 0.4893345190925178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We suggest a multilabel Korean online hate speech dataset that covers seven
categories of hate speech: (1) Race and Nationality, (2) Religion, (3)
Regionalism, (4) Ageism, (5) Misogyny, (6) Sexual Minorities, and (7) Male. Our
35K dataset consists of 24K online comments with Krippendorff's Alpha label
accordance of .713, 2.2K neutral sentences from Wikipedia, 1.7K additionally
labeled sentences generated by the Human-in-the-Loop procedure and
rule-generated 7.1K neutral sentences. The base model with 24K initial dataset
achieved the accuracy of LRAP .892, but improved to .919 after being combined
with 11K additional data. Unlike the conventional binary hate and non-hate
dichotomy approach, we designed a dataset considering both the cultural and
linguistic context to overcome the limitations of western culture-based English
texts. Thus, this paper is not only limited to presenting a local hate speech
dataset but extends as a manual for building a more generalized hate speech
dataset with diverse cultural backgrounds based on social science perspectives.
- Abstract(参考訳): 本研究では,(1)人種と国籍,(2)宗教,(3)地域主義,(4)年齢,(5)ミソジニー,(6)性マイノリティ,(7)男性という7つのカテゴリーを網羅した韓国のネットヘイトスピーチデータセットを提案する。
私たちの35Kデータセットは、Krippendorff氏のAlphaラベルによる24Kのオンラインコメントから成り、ウィキペディアの2.2Kの中立文、Human-in-the-Loopの手順によって生成された1.7Kのラベル付き文、ルール生成の7.1Kの中立文で構成されています。
24Kの初期データセットを持つベースモデルはLRAP .892の精度を達成したが、1Kの追加データと組み合わせて.919に改善された。
従来の二分二分法や二分法と異なり、西洋文化に基づく英語テキストの制限を克服するために、文化的・言語的文脈を考慮したデータセットを設計した。
そこで,本稿は,局所ヘイトスピーチデータセットの提示に限らず,社会科学的な視点に基づく多様な文化的背景を持つ,より汎用的なヘイトスピーチデータセット構築マニュアルとして拡張されている。
関連論文リスト
- IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language [11.463652750122398]
IndoToxic2024はインドネシアのヘイトスピーチおよび毒性分類データセットである。
19の個人によって注釈付けされた43,692のエントリを補完するデータセットは、脆弱なグループをターゲットにしたテキストに焦点を当てている。
我々は、7つの二項分類タスクのベースラインを確立し、憎悪音声分類のために細調整されたBERTモデルを用いてマクロF1スコア0.78を達成する。
論文 参考訳(メタデータ) (2024-06-27T17:26:38Z) - Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis [44.17106903728264]
ほとんどのヘイトスピーチデータセットは、単一の言語における文化的多様性を無視している。
そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。
論文 参考訳(メタデータ) (2023-08-31T13:14:47Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online
News Comment [3.428320237347854]
我々は韓国語パターンを効果的に処理するヘイトスピーチ検出のための新しいマルチラベルデータセットであるK-MHaSを紹介する。
データセットは、ニュースコメントから109kの発話で構成され、1から4つのラベルから複数のラベルの分類を提供する。
KR-BERTはサブキャラクタ・トークンーザより優れ、各ヘイトスピーチクラスで分解された文字を認識する。
論文 参考訳(メタデータ) (2022-08-23T02:10:53Z) - KOLD: Korean Offensive Language Dataset [11.699797031874233]
韓国の攻撃言語データセット(KOLD)と40kのコメントに,攻撃性,目標,対象とするグループ情報をラベル付けしたコメントを提示する。
タイトル情報は文脈として役立ち、特にコメントで省略された場合、憎悪の対象を識別するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T13:58:45Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。