論文の概要: dictNN: A Dictionary-Enhanced CNN Approach for Classifying Hate Speech
on Twitter
- arxiv url: http://arxiv.org/abs/2103.08780v1
- Date: Tue, 16 Mar 2021 00:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 22:26:41.617559
- Title: dictNN: A Dictionary-Enhanced CNN Approach for Classifying Hate Speech
on Twitter
- Title(参考訳): dictNN:Twitterでヘイトスピーチを分類するための辞書強化CNNアプローチ
- Authors: Maximilian Kupi, Michael Bodnar, Nikolas Schmidt, and Carlos Eduardo
Posada
- Abstract要約: クラウドソースで更新されたヘイトワード辞書に基づくベクトル化を提案する。
本稿では,CNNモデルの分類性能を向上させるために,標準単語埋め込みを用いた手法を提案する。
我々は,CNNモデルの予測能力を高め,F1マクロスコアを7ポイント増やすことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hate speech on social media is a growing concern, and automated methods have
so far been sub-par at reliably detecting it. A major challenge lies in the
potentially evasive nature of hate speech due to the ambiguity and fast
evolution of natural language. To tackle this, we introduce a vectorisation
based on a crowd-sourced and continuously updated dictionary of hate words and
propose fusing this approach with standard word embedding in order to improve
the classification performance of a CNN model. To train and test our model we
use a merge of two established datasets (110,748 tweets in total). By adding
the dictionary-enhanced input, we are able to increase the CNN model's
predictive power and increase the F1 macro score by seven percentage points.
- Abstract(参考訳): ソーシャルメディア上でのヘイトスピーチはますます懸念が高まっている。
大きな課題は、自然言語の曖昧さと急速な進化によるヘイトスピーチの潜在的回避性にある。
そこで我々は,クラウドソース型かつ継続的に更新されたヘイトワード辞書をベースとしたベクトル化を導入し,CNNモデルの分類性能を向上させるために,標準的な単語埋め込みと融合する手法を提案する。
モデルのトレーニングとテストには、2つの確立されたデータセット(合計110,748ツイート)のマージを使用します。
辞書付き入力を追加することで、CNNモデルの予測能力を高め、F1マクロスコアを7ポイント増やすことができる。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language [6.200058263544999]
本研究は,YouTubeコメントにおけるバイリンガルヘイトスピーチの検出に焦点を当てた。
コンテントの類似性、定義の類似性、一般的なヘイトワードなど、データセットがパフォーマンスに与える影響を測定する要素が含まれています。
最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。
論文 参考訳(メタデータ) (2024-10-02T10:22:53Z) - SWE2: SubWord Enriched and Significant Word Emphasized Framework for Hate Speech Detection [3.0460060805145517]
本稿では,メッセージの内容のみに依存し,ヘイトスピーチを自動的に識別するSWE2という新しいヘイトスピーチ検出フレームワークを提案する。
実験結果から,提案モデルでは0.975の精度と0.953のマクロF1が達成され,最先端の7つのベースラインを上回った。
論文 参考訳(メタデータ) (2024-09-25T07:05:44Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - SECNN: Squeeze-and-Excitation Convolutional Neural Network for Sentence
Classification [0.0]
畳み込みニューラルネットワーク(CNN)は畳み込みフィルタによってn-gramの特徴を抽出する能力を持つ。
文分類のためのSqueeze-and-Excitation Convolutional Neural Network (SECNN)を提案する。
論文 参考訳(メタデータ) (2023-12-11T03:26:36Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Offensive Language and Hate Speech Detection with Deep Learning and
Transfer Learning [1.77356577919977]
我々は、ツイートを自動的に3つのクラスに分類するアプローチを提案する。
我々は、テキスト分類、感情チェック、テキストデータ拡張を含む主要な機能を含むクラスモジュールを作成する。
論文 参考訳(メタデータ) (2021-08-06T20:59:47Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。