論文の概要: Offensive Language and Hate Speech Detection for Danish
- arxiv url: http://arxiv.org/abs/1908.04531v2
- Date: Thu, 23 Mar 2023 04:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 19:59:27.775394
- Title: Offensive Language and Hate Speech Detection for Danish
- Title(参考訳): デンマーク語における攻撃言語とヘイトスピーチ検出
- Authors: Gudbjartur Ingi Sigurbergsson, Leon Derczynski
- Abstract要約: textitReddit と textitFacebook からユーザ生成したコメントを含むデンマークのデータセットを構築した。
さまざまなソーシャルメディアプラットフォームからユーザ生成されたコメントが含まれており、私たちの知る限り、この種のものとしては初めてのものだ。
我々は4つの自動分類システムを開発しており、それぞれが英語とデンマーク語の両方に対応できるように設計されている。
- 参考スコア(独自算出の注目度): 6.396288020763144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The presence of offensive language on social media platforms and the
implications this poses is becoming a major concern in modern society. Given
the enormous amount of content created every day, automatic methods are
required to detect and deal with this type of content. Until now, most of the
research has focused on solving the problem for the English language, while the
problem is multilingual.
We construct a Danish dataset containing user-generated comments from
\textit{Reddit} and \textit{Facebook}. It contains user generated comments from
various social media platforms, and to our knowledge, it is the first of its
kind. Our dataset is annotated to capture various types and target of offensive
language. We develop four automatic classification systems, each designed to
work for both the English and the Danish language. In the detection of
offensive language in English, the best performing system achieves a macro
averaged F1-score of $0.74$, and the best performing system for Danish achieves
a macro averaged F1-score of $0.70$. In the detection of whether or not an
offensive post is targeted, the best performing system for English achieves a
macro averaged F1-score of $0.62$, while the best performing system for Danish
achieves a macro averaged F1-score of $0.73$. Finally, in the detection of the
target type in a targeted offensive post, the best performing system for
English achieves a macro averaged F1-score of $0.56$, and the best performing
system for Danish achieves a macro averaged F1-score of $0.63$.
Our work for both the English and the Danish language captures the type and
targets of offensive language, and present automatic methods for detecting
different kinds of offensive language such as hate speech and cyberbullying.
- Abstract(参考訳): ソーシャルメディアプラットフォームにおける攻撃的言語の存在とその意味は、現代の社会において大きな関心事となっている。
毎日生成されるコンテンツの量を考えると、この種のコンテンツの検出と処理には自動的な方法が必要となる。
これまで、ほとんどの研究は英語の問題に焦点を合わせてきたが、問題は多言語である。
我々は、 \textit{reddit} と \textit{facebook} からのユーザが生成したコメントを含むデンマークのデータセットを構築します。
さまざまなソーシャルメディアプラットフォームからユーザーが生成したコメントが含まれており、私たちの知る限りでは、この種のコメントは最初のものだ。
我々のデータセットは様々な種類の攻撃的言語をキャプチャするために注釈付けされている。
4つの自動分類システムを開発し,それぞれが英語とデンマーク語の両方で動作するように設計した。
英語における攻撃的言語の検出において、ベストパフォーマンスシステムはマクロ平均f1-scoreを0.74$とし、デンマーク最高のパフォーマンスシステムはマクロ平均f1-scoreを0.70$とする。
攻撃的ポストがターゲットであるか否かを検知すると、英語のベストパフォーマンスシステムはマクロ平均f1-scoreを0.62$、デンマークのベストパフォーマンスシステムはマクロ平均f1-scoreを0.73$とする。
最後に、標的とする攻撃姿勢における目標型の検出において、英語の最高のパフォーマンスシステムはマクロ平均F1スコアを0.56ドル、デンマークの最高のパフォーマンスシステムはマクロ平均F1スコアを0.63ドルを達成する。
英語とデンマーク語の両方に対する研究は、攻撃的言語のタイプとターゲットを捉え、ヘイトスピーチやサイバーいじめのようなさまざまな攻撃的言語を検出する自動手法を提案する。
関連論文リスト
- HateGPT: Unleashing GPT-3.5 Turbo to Combat Hate Speech on X [0.0]
マクロF1スコアを用いた分類モデルの性能評価を行った。
その結果,ラン1が最高性能を示し,精度とリコールの点でモデルが一貫して良好に動作していることが示唆された。
論文 参考訳(メタデータ) (2024-11-14T06:20:21Z) - DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles
for Detecting Patronizing and Condescending Language [0.0]
PCL(Patronizing and condescending Language)は至る所にあるが、メディアによる脆弱なコミュニティへの利用に焦点を当てることは滅多にない。
本稿では,SemEval 2022 Task 4: Patronizing and Condescending Language Detectionに提出された言語検出システムについて述べる。
論文 参考訳(メタデータ) (2022-04-18T13:22:10Z) - Multilingual Hate Speech and Offensive Content Detection using Modified
Cross-entropy Loss [0.0]
大規模な言語モデルは大量のデータに基づいてトレーニングされており、コンテキスト埋め込みも利用しています。
データのバランスもよくないので、修正されたクロスエントロピー損失を使ってこの問題に対処しました。
我々のチーム(HNLP)は、それぞれ英語サブタスクAと英語サブタスクBで0.808、0.639のマクロF1スコアを達成した。
論文 参考訳(メタデータ) (2022-02-05T20:31:40Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Detecting Abusive Albanian [5.092028049119383]
scShajは、さまざまなソーシャルメディアプラットフォーム上のユーザーテキストコンテンツから構築されたヘイトスピーチと攻撃的なスピーチのための注釈付きデータセットである。
データセットは3つの異なる分類モデルを用いてテストされ、最も良いものは攻撃言語を識別するためのF1スコア0.77を達成することである。
論文 参考訳(メタデータ) (2021-07-28T18:47:32Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - Cross-lingual Inductive Transfer to Detect Offensive Language [3.655021726150369]
XLM-RoBERTa (XLM-R) を用いたツイート中の攻撃的言語を特定するための言語間帰納的手法を提案する。
私たちのモデルは5つの言語すべてで競争力を発揮します。
論文 参考訳(メタデータ) (2020-07-07T20:10:31Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。