論文の概要: A study of text representations in Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2102.04521v1
- Date: Mon, 8 Feb 2021 20:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 19:24:55.767902
- Title: A study of text representations in Hate Speech Detection
- Title(参考訳): ヘイト音声検出におけるテキスト表現に関する研究
- Authors: Chrysoula Themeli, George Giannakopoulos and Nikiforos Pittaras
- Abstract要約: ヘイトフル言語に対するEUと米国の現行の法律は、ヘイトスピーチ検出タスクとパイプラインに必要な自動ツールを導いている。
本研究では,Hate音声の自動検出タスクにおいて,複数の分類アルゴリズムと組み合わせた多種多様なテキスト表現手法の性能について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pervasiveness of the Internet and social media have enabled the rapid and
anonymous spread of Hate Speech content on microblogging platforms such as
Twitter. Current EU and US legislation against hateful language, in conjunction
with the large amount of data produced in these platforms has led to automatic
tools being a necessary component of the Hate Speech detection task and
pipeline. In this study, we examine the performance of several, diverse text
representation techniques paired with multiple classification algorithms, on
the automatic Hate Speech detection and abusive language discrimination task.
We perform an experimental evaluation on binary and multiclass datasets, paired
with significance testing. Our results show that simple hate-keyword frequency
features (BoW) work best, followed by pre-trained word embeddings (GLoVe) as
well as N-gram graphs (NGGs): a graph-based representation which proved to
produce efficient, very low-dimensional but rich features for this task. A
combination of these representations paired with Logistic Regression or 3-layer
neural network classifiers achieved the best detection performance, in terms of
micro and macro F-measure.
- Abstract(参考訳): インターネットとソーシャルメディアの普及により、twitterのようなマイクロブログプラットフォーム上でのヘイトスピーチコンテンツの迅速かつ匿名の拡散が可能になった。
嫌悪な言語に対する現在のEUと米国の法律は、これらのプラットフォームで生成される大量のデータと組み合わせて、自動ツールがヘイト音声検出タスクとパイプラインの必要なコンポーネントとなっています。
本研究では,複数の分類アルゴリズムと組み合わせた多様なテキスト表現手法の性能について,自動Hate音声検出と虐待的言語識別タスクについて検討する。
バイナリデータセットとマルチクラスデータセットの実験的な評価を行い、重要なテストとペアリングします。
以上の結果から,単純な憎しみキーワードの頻度特徴(BoW)が最良であることを示すとともに,学習前の単語埋め込み(GLoVe)やグラフベースのグラフ表現(NGGs)も有効であることがわかった。
これらの表現とロジスティック回帰あるいは3層ニューラルネットワーク分類器の組み合わせは、マイクロおよびマクロf測定で最高の検出性能を達成した。
関連論文リスト
- SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Character-level HyperNetworks for Hate Speech Detection [3.50640918825436]
ヘイトスピーチ検出の自動化手法は、通常、最先端のディープラーニング(DL)ベースのテキスト分類器を用いる。
本稿では,ハイトスピーチ検出のためのHyperNetworksを提案する。これは,小規模補助ネットワークによって重みが制御される特殊なDLネットワークのクラスである。
我々は最先端の言語モデルに匹敵する、あるいは優れたパフォーマンスを達成し、事前訓練され、桁数は桁違いに大きい。
論文 参考訳(メタデータ) (2021-11-11T17:48:31Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Leveraging Multi-domain, Heterogeneous Data using Deep Multitask
Learning for Hate Speech Detection [21.410160004193916]
畳み込みニューラルネットワークに基づくマルチタスク学習モデル(MTL)フットノートコードを提案し,複数のソースからの情報を活用する。
3つのベンチマークデータセットで実施した実証分析は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-03-23T09:31:01Z) - AngryBERT: Joint Learning Target and Emotion for Hate Speech Detection [5.649040805759824]
本論文では,感情分類によるヘイトスピーチ検出と,二次的関連タスクとしてのターゲット同定を共同学習するマルチタスク学習型モデルであるAngryBERTを提案する。
実験の結果,AngryBERTは最先端のシングルタスク学習やマルチタスク学習のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-03-14T16:17:26Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。