論文の概要: KOLD: Korean Offensive Language Dataset
- arxiv url: http://arxiv.org/abs/2205.11315v1
- Date: Mon, 23 May 2022 13:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:18:15.464469
- Title: KOLD: Korean Offensive Language Dataset
- Title(参考訳): KOLD: 韓国の攻撃的言語データセット
- Authors: Younghoon Jeong, Juhyun Oh, Jaimeen Ahn, Jongwon Lee, Jihyung Mon,
Sungjoon Park, Alice Oh
- Abstract要約: 韓国の攻撃言語データセット(KOLD)と40kのコメントに,攻撃性,目標,対象とするグループ情報をラベル付けしたコメントを提示する。
タイトル情報は文脈として役立ち、特にコメントで省略された場合、憎悪の対象を識別するのに役立ちます。
- 参考スコア(独自算出の注目度): 11.699797031874233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large attention has been paid to the detection of hate speech, most
work has been done in English, failing to make it applicable to other
languages. To fill this gap, we present a Korean offensive language dataset
(KOLD), 40k comments labeled with offensiveness, target, and targeted group
information. We also collect two types of span, offensive and target span that
justifies the decision of the categorization within the text. Comparing the
distribution of targeted groups with the existing English dataset, we point out
the necessity of a hate speech dataset fitted to the language that best
reflects the culture. Trained with our dataset, we report the baseline
performance of the models built on top of large pretrained language models. We
also show that title information serves as context and is helpful to discern
the target of hatred, especially when they are omitted in the comment.
- Abstract(参考訳): ヘイトスピーチの検出には多くの注意が払われているが、ほとんどの仕事は英語で行われており、他の言語に適用できない。
このギャップを埋めるために,韓国攻撃言語データセット(kold)と,攻撃性,ターゲット,対象グループ情報をラベル付けした40万コメントを提案する。
また、テキスト内の分類の決定を正当化する2種類の攻撃的スパンと目標スパンも収集する。
対象とするグループと既存の英語データセットの分布を比較し,文化を最も反映した言語に適合したヘイトスピーチデータセットの必要性を指摘する。
データセットを用いて学習し、大規模な事前訓練言語モデルの上に構築されたモデルのベースライン性能を報告する。
また、タイトル情報は文脈として機能し、特にコメントに省略された場合、憎しみのターゲットを識別するのに役立ちます。
関連論文リスト
- Developing Linguistic Patterns to Mitigate Inherent Human Bias in
Offensive Language Detection [1.6574413179773761]
本稿では,ラベル付けプロセスにおけるバイアスを低減するための言語データ拡張手法を提案する。
このアプローチは、複数の言語にわたる攻撃的な言語分類タスクを改善する可能性がある。
論文 参考訳(メタデータ) (2023-12-04T10:20:36Z) - K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific
Ratings [6.902524826065157]
K-HATERSは韓国のヘイトスピーチ検出のための新しいコーパスで、ターゲット固有の攻撃性評価を持つ約192Kのニュースコメントを含んでいる。
本研究は,ヘイトスピーチの検出と資源構築に関するNLP研究に寄与する。
論文 参考訳(メタデータ) (2023-10-24T01:20:05Z) - Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis [44.17106903728264]
ほとんどのヘイトスピーチデータセットは、単一の言語における文化的多様性を無視している。
そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。
論文 参考訳(メタデータ) (2023-08-31T13:14:47Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。