論文の概要: Sexism detection: The first corpus in Algerian dialect with a
code-switching in Arabic/ French and English
- arxiv url: http://arxiv.org/abs/2104.01443v1
- Date: Sat, 3 Apr 2021 16:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:44:39.154945
- Title: Sexism detection: The first corpus in Algerian dialect with a
code-switching in Arabic/ French and English
- Title(参考訳): 性差別検出:アラビア語/フランス語と英語でコードスイッチングを施したアルジェ方言における最初のコーパス
- Authors: Imane Guellil and Ahsan Adeel and Faical Azouaou and Mohamed Boubred
and Yousra Houichi and Akram Abdelhaq Moumna
- Abstract要約: 3種類のアノテーションを用いて新しいヘイトスピーチコーパス(arabic_fr_en)を開発した。
コーパス検証には、深層畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)ネットワーク、双方向LSTM(Bi-directional LSTM)ネットワークを含む3つの異なる機械学習アルゴリズムが使用される。
シミュレーションの結果,不均衡コーパスのf1-scoreを最大86%達成したcnnモデルの最適性能が示された。
- 参考スコア(独自算出の注目度): 0.3425341633647625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, an approach for hate speech detection against women in Arabic
community on social media (e.g. Youtube) is proposed. In the literature,
similar works have been presented for other languages such as English. However,
to the best of our knowledge, not much work has been conducted in the Arabic
language. A new hate speech corpus (Arabic\_fr\_en) is developed using three
different annotators. For corpus validation, three different machine learning
algorithms are used, including deep Convolutional Neural Network (CNN), long
short-term memory (LSTM) network and Bi-directional LSTM (Bi-LSTM) network.
Simulation results demonstrate the best performance of the CNN model, which
achieved F1-score up to 86\% for the unbalanced corpus as compared to LSTM and
Bi-LSTM.
- Abstract(参考訳): 本稿では,ソーシャルメディア上でのアラビア語コミュニティの女性に対するヘイトスピーチ検出手法について述べる。
Youtube)が提案されている。
文学では、英語など他の言語にも同様の作品が提示されている。
しかし、我々の知る限り、アラビア語での作業はあまり行われていない。
3種類のアノテーションを用いて新しいヘイトスピーチコーパス(アラビア語\_fr\_en)を開発する。
コーパス検証には、深層畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)ネットワーク、双方向LSTM(Bi-directional LSTM)ネットワークを含む3つの異なる機械学習アルゴリズムが使用される。
シミュレーションの結果, LSTM や Bi-LSTM と比較してF1スコアを最大 86% まで達成した CNN モデルでは, 最高の性能を示した。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - A Unified Multi-Task Learning Architecture for Hate Detection Leveraging User-Based Information [23.017068553977982]
ヘイトスピーチ、攻撃的言語、攻撃性、人種差別、性差別、その他の虐待的言語は、ソーシャルメディアでよく見られる現象である。
ヘイトコンテンツを大規模にフィルタリングする人工知能(AI)ベースの介入が必要である。
本稿では,ユーザ内およびユーザ間情報を活用することで,英語のヘイトスピーチ識別を改善するユニークなモデルを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:37:11Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。
MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文 参考訳(メタデータ) (2022-01-19T06:32:25Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Effect of Word Embedding Models on Hate and Offensive Speech Detection [1.7403133838762446]
単語埋め込みモデルとニューラルネットワークアーキテクチャの両方が予測精度に与える影響について検討する。
まず、大規模なアラビア文字コーパスに複数の単語埋め込みモデルを訓練する。
検出タスク毎に、事前学習された単語埋め込みモデルを用いて、ニューラルネットワーク分類器を訓練する。
このタスクは多数の学習モデルをもたらし、徹底的な比較を可能にする。
論文 参考訳(メタデータ) (2020-11-23T02:43:45Z) - "Did you really mean what you said?" : Sarcasm Detection in
Hindi-English Code-Mixed Data using Bilingual Word Embeddings [0.0]
我々は、カスタム単語埋め込みを訓練するためのツイートのコーパスと、皮肉検出のためのラベル付きHinglishデータセットを提示する。
我々は,ヒンディー語と英語の混合ツイートにおける皮肉検出の問題に対処するために,ディープラーニングに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-01T11:41:44Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - IIT Gandhinagar at SemEval-2020 Task 9: Code-Mixed Sentiment
Classification Using Candidate Sentence Generation and Selection [1.2301855531996841]
コードミキシングは、非標準の書き込みスタイルのためにテキストの感情を分析することの難しさを増す。
本稿では,Bi-LSTMに基づくニューラル分類器上での文生成と選択に基づく提案手法を提案する。
提案手法は,Bi-LSTMに基づくニューラル分類器と比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-25T14:59:47Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。