論文の概要: Towards Interpretable Multilingual Detection of Hate Speech against
Immigrants and Women in Twitter at SemEval-2019 Task 5
- arxiv url: http://arxiv.org/abs/2011.13238v1
- Date: Thu, 26 Nov 2020 11:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 12:08:22.421866
- Title: Towards Interpretable Multilingual Detection of Hate Speech against
Immigrants and Women in Twitter at SemEval-2019 Task 5
- Title(参考訳): SemEval-2019 Task 5におけるTwitterの移民・女性に対するヘイトスピーチの多言語検出
- Authors: Alvi Md Ishmam
- Abstract要約: 本稿では,Twitterにおける女性や移民に対するヘイトスピーチを多言語で検出する手法について述べる。
この課題はSemEval 2019 Task 5によって設計され、参加者は英語とスペイン語でヘイトスピーチを検出するアルゴリズムを設計する必要がある。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: his paper describes our techniques to detect hate speech against women and
immigrants on Twitter in multilingual contexts, particularly in English and
Spanish. The challenge was designed by SemEval-2019 Task 5, where the
participants need to design algorithms to detect hate speech in English and
Spanish language with a given target (e.g., women or immigrants). Here, we have
developed two deep neural networks (Bidirectional Gated Recurrent Unit (GRU),
Character-level Convolutional Neural Network (CNN)), and one machine learning
model by exploiting the linguistic features. Our proposed model obtained 57 and
75 F1 scores for Task A in English and Spanish language respectively. For Task
B, the F1 scores are 67 for English and 75.33 for Spanish. In the case of task
A (Spanish) and task B (both English and Spanish), the F1 scores are improved
by 2, 10, and 5 points respectively. Besides, we present visually interpretable
models that can address the generalizability issues of the custom-designed
machine learning architecture by investigating the annotated dataset.
- Abstract(参考訳): 彼の論文は、Twitter上で女性や移民に対するヘイトスピーチを多言語で検出する手法について説明している。
この課題はsemeval-2019 task 5によって設計され、参加者は特定のターゲット(例えば女性や移民)で英語とスペイン語でヘイトスピーチを検出するアルゴリズムを設計する必要がある。
そこで我々は,2つのディープニューラルネットワーク(双方向Gated Recurrent Unit (GRU),キャラクタレベル畳み込みニューラルネットワーク (CNN))と,言語的特徴を利用した1つの機械学習モデルを開発した。
提案モデルでは,英語とスペイン語のタスクAにおいて,57点,75点のスコアが得られた。
タスクBでは、F1スコアは英語で67点、スペイン語で75.33点である。
タスクa(スペイン語)とタスクb(英語とスペイン語の両方)では、f1スコアがそれぞれ2,10,5ポイント向上する。
さらに、アノテーション付きデータセットを調査することにより、カスタム設計の機械学習アーキテクチャの一般化可能性問題に対処できる視覚的解釈可能なモデルを提案する。
関連論文リスト
- 1-800-SHARED-TASKS @ NLU of Devanagari Script Languages: Detection of Language, Hate Speech, and Targets using LLMs [0.0]
本稿では,CHiPSAL 2025共有タスクの入力に関する詳細なシステム記述について述べる。
本稿では,Devanagariスクリプト言語における言語検出,ヘイトスピーチ識別,ターゲット検出に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-11T10:34:36Z) - Hate Speech and Offensive Content Detection in Indo-Aryan Languages: A
Battle of LSTM and Transformers [0.0]
我々はベンガル語、アサメセ語、ボド語、シンハラ語、グジャラート語の5つの異なる言語でヘイトスピーチの分類を比較した。
Bert Base Multilingual Casedは、ベンガル語で0.67027得点、アサメ語で0.70525得点を達成した。
シンハラではXLM-RはF1スコア0.83493で際立っているが、グジャラティではF1スコア0.76601で照らされたカスタムLSTMベースのモデルである。
論文 参考訳(メタデータ) (2023-12-09T20:24:00Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Fine-tuning of Pre-trained Transformers for Hate, Offensive, and Profane
Content Detection in English and Marathi [0.0]
本稿では,英語とインド・アーリア語におけるHate Speech and Offensive Content Identificationのために開発されたニューラルモデルについて述べる。
英語のサブタスクに対して,ヘイトスピーチ検出のための追加コーパスが微調整変圧器モデルに与える影響について検討する。
Marathiタスクに対しては,Language-Agnostic BERT Sentence Embedding (LaBSE)に基づくシステムを提案する。
論文 参考訳(メタデータ) (2021-10-25T07:11:02Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - UPB at SemEval-2020 Task 9: Identifying Sentiment in Code-Mixed Social
Media Texts using Transformers and Multi-Task Learning [1.7196613099537055]
本研究チームは,SemEval-2020 Task 9のために開発したシステムについて述べる。
私たちは、ヒンディー語とスペイン語の2つのよく知られた混成言語をカバーすることを目指しています。
提案手法は, 平均F1スコアが0.6850であるヒンディー語タスクにおいて, 有望な性能を達成する。
スペイン語と英語のタスクでは、29人中17人として、平均で0.7064のF1スコアを獲得しました。
論文 参考訳(メタデータ) (2020-09-06T17:19:18Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。