論文の概要: K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online
News Comment
- arxiv url: http://arxiv.org/abs/2208.10684v1
- Date: Tue, 23 Aug 2022 02:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 12:26:56.191897
- Title: K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online
News Comment
- Title(参考訳): k-mhas:韓国のオンラインニュースコメントにおけるヘイトスピーチ検出データセット
- Authors: Jean Lee, Taejun Lim, Heejun Lee, Bogeun Jo, Yangsok Kim, Heegeun Yoon
and Soyeon Caren Han
- Abstract要約: 我々は韓国語パターンを効果的に処理するヘイトスピーチ検出のための新しいマルチラベルデータセットであるK-MHaSを紹介する。
データセットは、ニュースコメントから109kの発話で構成され、1から4つのラベルから複数のラベルの分類を提供する。
KR-BERTはサブキャラクタ・トークンーザより優れ、各ヘイトスピーチクラスで分解された文字を認識する。
- 参考スコア(独自算出の注目度): 3.428320237347854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online Hate speech detection has become important with the growth of digital
devices, but resources in languages other than English are extremely limited.
We introduce K-MHaS, a new multi-label dataset for hate speech detection that
effectively handles Korean language patterns. The dataset consists of 109k
utterances from news comments and provides multi-label classification from 1 to
4 labels, and handling subjectivity and intersectionality. We evaluate strong
baselines on K-MHaS. KR-BERT with sub-character tokenizer outperforms,
recognising decomposed characters in each hate speech class.
- Abstract(参考訳): オンラインヘイトスピーチ検出はデジタルデバイスの成長とともに重要になっているが、英語以外の言語のリソースは極めて限られている。
我々は韓国語パターンを効果的に処理するヘイトスピーチ検出のための新しいマルチラベルデータセットであるK-MHaSを紹介する。
データセットは、ニュースコメントからの109k発話で構成され、1ラベルから4ラベルまでのマルチラベル分類を提供し、主観性と交叉性を扱う。
我々はK-MHaSの強塩基性を評価する。
KR-BERTはサブキャラクタ・トークンーザより優れ、各ヘイトスピーチクラスで分解された文字を認識する。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific
Ratings [6.902524826065157]
K-HATERSは韓国のヘイトスピーチ検出のための新しいコーパスで、ターゲット固有の攻撃性評価を持つ約192Kのニュースコメントを含んでいる。
本研究は,ヘイトスピーチの検出と資源構築に関するNLP研究に寄与する。
論文 参考訳(メタデータ) (2023-10-24T01:20:05Z) - Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis [44.17106903728264]
ほとんどのヘイトスピーチデータセットは、単一の言語における文化的多様性を無視している。
そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。
論文 参考訳(メタデータ) (2023-08-31T13:14:47Z) - APEACH: Attacking Pejorative Expressions with Analysis on
Crowd-Generated Hate Speech Evaluation Datasets [4.034948808542701]
APEACHは、特定されていないユーザによって生成されるヘイトスピーチの収集を可能にする方法である。
ヘイトスピーチの群集生成を制御し,最小限のポストラベルのみを追加することにより,ヘイトスピーチ検出の一般化と公平な評価を可能にするコーパスを作成する。
論文 参考訳(メタデータ) (2022-02-25T02:04:38Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。