論文の概要: Contextual Lexicon-Based Approach for Hate Speech and Offensive Language
Detection
- arxiv url: http://arxiv.org/abs/2104.12265v1
- Date: Sun, 25 Apr 2021 21:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 04:12:02.728199
- Title: Contextual Lexicon-Based Approach for Hate Speech and Offensive Language
Detection
- Title(参考訳): 文脈レキシコンに基づくヘイトスピーチと攻撃言語検出のアプローチ
- Authors: Francielle Alves Vargas, Fabiana Rodrigues de G\'oes, Isabelle
Carvalho, Fabr\'icio Benevenuto, Thiago Alexandre Salgueiro Pardo
- Abstract要約: 本稿では,ソーシャルメディア上での攻撃的言語とヘイトスピーチ検出の新しいアプローチを提案する。
我々のアプローチは、暗黙的で明示的な攻撃的および誓約的な表現をバイナリークラスで注釈付けした攻撃的語彙を取り入れている。
ブラジルにおけるヘイトスピーチの深刻さと、ポルトガル語における研究の欠如により、ブラジルポルトガル語は我々の方法を検証するために使用される言語である。
- 参考スコア(独自算出の注目度): 1.1744028458220426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new approach for offensive language and hate speech
detection on social media. Our approach incorporates an offensive lexicon
composed by implicit and explicit offensive and swearing expressions annotated
with binary classes: context-dependent offensive and context-independent
offensive. Due to the severity of the hate speech and offensive comments in
Brazil and the lack of research in Portuguese, Brazilian Portuguese is the
language used to validate our method. However, the proposal may be applied to
any other language or domain. Based on the obtained results, the proposed
approach showed high performance results overcoming the current baselines for
European and Brazilian Portuguese.
- Abstract(参考訳): 本稿ではソーシャルメディア上での攻撃的言語とヘイトスピーチ検出の新しいアプローチを提案する。
本手法では,暗黙的かつ明示的な攻撃表現と,二進法でアノテートされた宣言表現(文脈依存的攻撃と文脈非依存攻撃)からなる攻撃的レキシコンを組み込む。
ブラジルにおけるヘイトスピーチの深刻さと、ポルトガル語における研究の欠如により、ブラジルポルトガル語は我々の方法を検証するために使用される言語である。
しかし、この提案は他の言語やドメインにも適用できる。
得られた結果に基づいて, 提案手法は, ヨーロッパおよびブラジルのポルトガル語のベースラインを上回って, 高性能な結果を示した。
関連論文リスト
- Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - TuPy-E: detecting hate speech in Brazilian Portuguese social media with
a novel dataset and comprehensive analysis of models [0.0]
TuPy-Eはヘイトスピーチ検出のためのポルトガル最大の注釈付きコーパスである。
BERTモデルのような高度な手法を用いて詳細な解析を行う。
論文 参考訳(メタデータ) (2023-12-29T17:47:00Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - Identifying Offensive Expressions of Opinion in Context [0.0]
文脈における意見や感情を識別する主観的情報抽出システムは依然として課題である。
感情に基づくNLPタスクでは、文脈における全ての攻撃的または憎悪的な意見よりも、情報抽出のリソースが少ない。
この論文は、明示的で暗黙的に攻撃的で、意見の表現を誓う新しいクロス言語的および文脈的攻撃的語彙を提供する。
論文 参考訳(メタデータ) (2021-04-25T18:35:39Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。