論文の概要: Effect of Word Embedding Models on Hate and Offensive Speech Detection
- arxiv url: http://arxiv.org/abs/2012.07534v1
- Date: Mon, 23 Nov 2020 02:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:18:44.844491
- Title: Effect of Word Embedding Models on Hate and Offensive Speech Detection
- Title(参考訳): 単語埋め込みモデルがヘイトおよび攻撃的音声検出に及ぼす影響
- Authors: Safa Alsafari, Samira Sadaoui, Malek Mouhoub
- Abstract要約: 単語埋め込みモデルとニューラルネットワークアーキテクチャの両方が予測精度に与える影響について検討する。
まず、大規模なアラビア文字コーパスに複数の単語埋め込みモデルを訓練する。
検出タスク毎に、事前学習された単語埋め込みモデルを用いて、ニューラルネットワーク分類器を訓練する。
このタスクは多数の学習モデルをもたらし、徹底的な比較を可能にする。
- 参考スコア(独自算出の注目度): 1.7403133838762446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have been adopted successfully in hate speech detection
problems. Nevertheless, the effect of the word embedding models on the neural
network's performance has not been appropriately examined in the literature. In
our study, through different detection tasks, 2-class, 3-class, and 6-class
classification, we investigate the impact of both word embedding models and
neural network architectures on the predictive accuracy. Our focus is on the
Arabic language. We first train several word embedding models on a large-scale
unlabelled Arabic text corpus. Next, based on a dataset of Arabic hate and
offensive speech, for each detection task, we train several neural network
classifiers using the pre-trained word embedding models. This task yields a
large number of various learned models, which allows conducting an exhaustive
comparison. The empirical analysis demonstrates, on the one hand, the
superiority of the skip-gram models and, on the other hand, the superiority of
the CNN network across the three detection tasks.
- Abstract(参考訳): ディープニューラルネットワークはヘイトスピーチ検出問題でうまく採用されている。
にもかかわらず、単語埋め込みモデルがニューラルネットワークの性能に及ぼす影響は文献で適切に検討されていない。
本研究では,2-class,3-class,6-classの異なる検出タスクを用いて,単語埋め込みモデルとニューラルネットワークアーキテクチャが予測精度に与える影響について検討した。
私たちの焦点はアラビア語です。
まず、大規模なアラビア文字コーパスに複数の単語埋め込みモデルを訓練する。
次に、アラビアヘイトと攻撃音声のデータセットに基づいて、各検出タスクに対して、事前訓練された単語埋め込みモデルを用いて、ニューラルネットワーク分類器を訓練する。
このタスクは様々な学習モデルを生み出し、徹底的な比較を行うことができる。
実験分析の結果,3つの検出タスクにおいて,スキップグラムモデルの優越性,cnnネットワークの優越性が示された。
関連論文リスト
- Deception Detection from Linguistic and Physiological Data Streams Using Bimodal Convolutional Neural Networks [19.639533220155965]
本稿では,畳み込み型ニューラルネットワークのマルチモーダルな騙し検出への応用について検討する。
2つのトピックについて104人の被験者にインタビューして構築したデータセットを使用します。
論文 参考訳(メタデータ) (2023-11-18T02:44:33Z) - Multi-label Text Classification using GloVe and Neural Network Models [0.27195102129094995]
既存のソリューションには、予測のための従来の機械学習とディープニューラルネットワークが含まれる。
本稿では,GloVe モデルと CNN-BiLSTM ネットワークに基づくback-of-words モデル手法を提案する。
テストセットの精度は87.26%、F1スコアは0.8737であり、有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T01:30:26Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - SLCNN: Sentence-Level Convolutional Neural Network for Text
Classification [0.0]
畳み込みニューラルネットワーク(CNN)は,テキスト分類のタスクにおいて顕著な成功を収めている。
CNNを用いたテキスト分類のための新しいベースラインモデルが研究されている。
結果から,提案したモデルの性能は,特に長いドキュメントにおいて向上していることがわかった。
論文 参考訳(メタデータ) (2023-01-27T13:16:02Z) - Multitasking Models are Robust to Structural Failure: A Neural Model for
Bilingual Cognitive Reserve [78.3500985535601]
マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。
実験の結果,バイリンガル言語モデルは様々なニューロン摂動下で高い性能を維持していることがわかった。
線形表現学習を数学的に解析することにより,このロバスト性を理論的に正当化する。
論文 参考訳(メタデータ) (2022-10-20T22:23:27Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Khmer Text Classification Using Word Embedding and Neural Networks [0.0]
Khmerテキストの様々な分類手法について論じる。
Khmerワード埋め込みモデルは、ワードベクトル表現を構築するために、30万のKhmerワードコーパスで訓練される。
複数クラス・複数ラベルのテキスト分類タスクに対して,ニュース記事データセット上での異なるアプローチの性能を評価する。
論文 参考訳(メタデータ) (2021-12-13T15:57:32Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - On the Effects of Using word2vec Representations in Neural Networks for
Dialogue Act Recognition [0.6767885381740952]
文中の単語列をキャプチャする再帰モデルを探索するディープニューラルネットワークを提案する。
このモデルを英語、フランス語、チェコ語という3つの言語で検証する。
論文 参考訳(メタデータ) (2020-10-22T07:21:17Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。