Fugu-MT 論文翻訳(概要): KOLD: Korean Offensive Language Dataset

論文の概要: KOLD: Korean Offensive Language Dataset

arxiv url: http://arxiv.org/abs/2205.11315v1
Date: Mon, 23 May 2022 13:58:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 15:18:15.464469
Title: KOLD: Korean Offensive Language Dataset
Title（参考訳）: KOLD: 韓国の攻撃的言語データセット
Authors: Younghoon Jeong, Juhyun Oh, Jaimeen Ahn, Jongwon Lee, Jihyung Mon, Sungjoon Park, Alice Oh
Abstract要約: 韓国の攻撃言語データセット(KOLD)と40kのコメントに,攻撃性,目標,対象とするグループ情報をラベル付けしたコメントを提示する。タイトル情報は文脈として役立ち、特にコメントで省略された場合、憎悪の対象を識別するのに役立ちます。
参考スコア（独自算出の注目度）: 11.699797031874233
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although large attention has been paid to the detection of hate speech, most work has been done in English, failing to make it applicable to other languages. To fill this gap, we present a Korean offensive language dataset (KOLD), 40k comments labeled with offensiveness, target, and targeted group information. We also collect two types of span, offensive and target span that justifies the decision of the categorization within the text. Comparing the distribution of targeted groups with the existing English dataset, we point out the necessity of a hate speech dataset fitted to the language that best reflects the culture. Trained with our dataset, we report the baseline performance of the models built on top of large pretrained language models. We also show that title information serves as context and is helpful to discern the target of hatred, especially when they are omitted in the comment.
Abstract（参考訳）: ヘイトスピーチの検出には多くの注意が払われているが、ほとんどの仕事は英語で行われており、他の言語に適用できない。このギャップを埋めるために,韓国攻撃言語データセット(kold)と,攻撃性,ターゲット,対象グループ情報をラベル付けした40万コメントを提案する。また、テキスト内の分類の決定を正当化する2種類の攻撃的スパンと目標スパンも収集する。対象とするグループと既存の英語データセットの分布を比較し,文化を最も反映した言語に適合したヘイトスピーチデータセットの必要性を指摘する。データセットを用いて学習し、大規模な事前訓練言語モデルの上に構築されたモデルのベースライン性能を報告する。また、タイトル情報は文脈として機能し、特にコメントに省略された場合、憎しみのターゲットを識別するのに役立ちます。

関連論文リスト

Developing Linguistic Patterns to Mitigate Inherent Human Bias in Offensive Language Detection [1.6574413179773761]
本稿では,ラベル付けプロセスにおけるバイアスを低減するための言語データ拡張手法を提案する。このアプローチは、複数の言語にわたる攻撃的な言語分類タスクを改善する可能性がある。
論文参考訳（メタデータ） (2023-12-04T10:20:36Z)
K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific Ratings [6.902524826065157]
K-HATERSは韓国のヘイトスピーチ検出のための新しいコーパスで、ターゲット固有の攻撃性評価を持つ約192Kのニュースコメントを含んでいる。本研究は,ヘイトスピーチの検出と資源構築に関するNLP研究に寄与する。
論文参考訳（メタデータ） (2023-10-24T01:20:05Z)
Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis [44.17106903728264]
ほとんどのヘイトスピーチデータセットは、単一の言語における文化的多様性を無視している。そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。 CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。
論文参考訳（メタデータ） (2023-08-31T13:14:47Z)
How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文参考訳（メタデータ） (2023-05-23T14:04:12Z)
Data-Efficient Strategies for Expanding Hate Speech Detection into Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文参考訳（メタデータ） (2022-10-20T15:49:00Z)
COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文参考訳（メタデータ） (2022-01-16T11:47:23Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文参考訳（メタデータ） (2021-12-07T17:49:34Z)
Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文参考訳（メタデータ） (2020-08-02T17:23:55Z)
Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文参考訳（メタデータ） (2020-07-29T19:38:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。