論文の概要: BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection
- arxiv url: http://arxiv.org/abs/2005.12503v1
- Date: Tue, 26 May 2020 03:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:22:18.428403
- Title: BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection
- Title(参考訳): ビープ!
韓国における有毒音声検出のためのオンラインニュースコメントコーパス
- Authors: Jihyung Moon, Won Ik Cho, Junbum Lee
- Abstract要約: われわれはまず、韓国の有毒なスピーチを識別するために、手動でエンターテイメントニュースコメントをラベル付けした9.4Kを提示する。
どちらの側面も相関しているため、社会的偏見とヘイトスピーチについて注釈が付されている。
CharCNN, BiLSTM, BERT を用いてベンチマークを行い, BERT が全てのタスクにおいて最高スコアを達成している。
- 参考スコア(独自算出の注目度): 3.90603670603335
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Toxic comments in online platforms are an unavoidable social issue under the
cloak of anonymity. Hate speech detection has been actively done for languages
such as English, German, or Italian, where manually labeled corpus has been
released. In this work, we first present 9.4K manually labeled entertainment
news comments for identifying Korean toxic speech, collected from a widely used
online news platform in Korea. The comments are annotated regarding social bias
and hate speech since both aspects are correlated. The inter-annotator
agreement Krippendorff's alpha score is 0.492 and 0.496, respectively. We
provide benchmarks using CharCNN, BiLSTM, and BERT, where BERT achieves the
highest score on all tasks. The models generally display better performance on
bias identification, since the hate speech detection is a more subjective
issue. Additionally, when BERT is trained with bias label for hate speech
detection, the prediction score increases, implying that bias and hate are
intertwined. We make our dataset publicly available and open competitions with
the corpus and benchmarks.
- Abstract(参考訳): オンラインプラットフォームにおける有害なコメントは、匿名性の下で避けられない社会問題である。
ヘイトスピーチ検出は、手動ラベル付きコーパスがリリースされた英語、ドイツ語、イタリア語などの言語で積極的に行われている。
本研究は,韓国で広く利用されているオンラインニュースプラットフォームから収集した,韓国の有害な言論を識別するために,手動で9.4Kのエンターテイメントニュースコメントを提示する。
社会バイアスとヘイトスピーチに関するコメントは、双方の側面が関連しているため、注釈付けされている。
krippendorffのアルファスコアは、それぞれ0.492と0.496である。
CharCNN, BiLSTM, BERT を用いてベンチマークを行い, BERT が全てのタスクにおいて最高スコアを達成している。
ヘイトスピーチの検出はより主観的な問題であるため、モデルは通常バイアス識別のパフォーマンスが向上する。
さらに、ヘイトスピーチ検出のためのバイアスラベルを用いてBERTをトレーニングすると、予測スコアが増加し、バイアスとヘイトが絡み合っていることを示す。
データセットを公開し、コーパスとベンチマークとの競争を開いています。
関連論文リスト
- ViTHSD: Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific
Ratings [6.902524826065157]
K-HATERSは韓国のヘイトスピーチ検出のための新しいコーパスで、ターゲット固有の攻撃性評価を持つ約192Kのニュースコメントを含んでいる。
本研究は,ヘイトスピーチの検出と資源構築に関するNLP研究に寄与する。
論文 参考訳(メタデータ) (2023-10-24T01:20:05Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Analyzing the Intensity of Complaints on Social Media [55.140613801802886]
テキストからの苦情の強度を測定する計算言語学における最初の研究について述べる。
私たちは中国のソーシャルメディアプラットフォームであるWeiboからの苦情に関する3,103件の投稿を含む最初の中国のデータセットを作成しました。
平均二乗誤差が0.11となる計算モデルにより,苦情強度を正確に推定できることを示す。
論文 参考訳(メタデータ) (2022-04-20T10:15:44Z) - APEACH: Attacking Pejorative Expressions with Analysis on
Crowd-Generated Hate Speech Evaluation Datasets [4.034948808542701]
APEACHは、特定されていないユーザによって生成されるヘイトスピーチの収集を可能にする方法である。
ヘイトスピーチの群集生成を制御し,最小限のポストラベルのみを追加することにより,ヘイトスピーチ検出の一般化と公平な評価を可能にするコーパスを作成する。
論文 参考訳(メタデータ) (2022-02-25T02:04:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets [36.29939722039909]
本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。
これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。
Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
論文 参考訳(メタデータ) (2021-12-18T19:27:33Z) - Hate speech detection using static BERT embeddings [0.9176056742068814]
ヘイトスピーチは、特定のグループの特徴をターゲットとした虐待的スピーチを表現する主要な関心事として浮上している。
本稿では,単語埋め込みの置き換えや統合によるヘイトスピーチ検出の性能解析を行う。
細調整されたBERTと比較して、大幅に改善された指標は特異性である。
論文 参考訳(メタデータ) (2021-06-29T16:17:10Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。