論文の概要: Overview of the HASOC track at FIRE 2020: Hate Speech and Offensive
Content Identification in Indo-European Languages
- arxiv url: http://arxiv.org/abs/2108.05927v1
- Date: Thu, 12 Aug 2021 19:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 22:14:20.841991
- Title: Overview of the HASOC track at FIRE 2020: Hate Speech and Offensive
Content Identification in Indo-European Languages
- Title(参考訳): FIRE 2020におけるHASOCトラックの概要:インド・ヨーロッパ語におけるヘイトスピーチと攻撃的内容同定
- Authors: Thomas Mandla, Sandip Modha, Gautam Kishore Shahi, Amit Kumar Jaiswal,
Durgesh Nandini, Daksh Patel, Prasenjit Majumder and Johannes Sch\"afer
- Abstract要約: HASOCトラックはヒンディー語、ドイツ語、英語向けのHate Speech Detectionアルゴリズムの開発と最適化を目的としている。
データセットはTwitterアーカイブから収集され、機械学習システムによって事前に分類される。
全体では40チーム252本が提出された。タスクAの最良の分類アルゴリズムは、それぞれ英語、ヒンディー語、ドイツ語で0.51本、0.53本、ドイツ語で0.52本である。
- 参考スコア(独自算出の注目度): 2.927129789938848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growth of social media, the spread of hate speech is also increasing
rapidly. Social media are widely used in many countries. Also Hate Speech is
spreading in these countries. This brings a need for multilingual Hate Speech
detection algorithms. Much research in this area is dedicated to English at the
moment. The HASOC track intends to provide a platform to develop and optimize
Hate Speech detection algorithms for Hindi, German and English. The dataset is
collected from a Twitter archive and pre-classified by a machine learning
system. HASOC has two sub-task for all three languages: task A is a binary
classification problem (Hate and Not Offensive) while task B is a fine-grained
classification problem for three classes (HATE) Hate speech, OFFENSIVE and
PROFANITY. Overall, 252 runs were submitted by 40 teams. The performance of the
best classification algorithms for task A are F1 measures of 0.51, 0.53 and
0.52 for English, Hindi, and German, respectively. For task B, the best
classification algorithms achieved F1 measures of 0.26, 0.33 and 0.29 for
English, Hindi, and German, respectively. This article presents the tasks and
the data development as well as the results. The best performing algorithms
were mainly variants of the transformer architecture BERT. However, also other
systems were applied with good success
- Abstract(参考訳): ソーシャルメディアの成長に伴い、ヘイトスピーチの普及も急速に増加している。
ソーシャルメディアは多くの国で広く使われている。
また、これらの国でヘイトスピーチが広まっている。
これは多言語ヘイトスピーチ検出アルゴリズムの必要性をもたらす。
現在、この地域の多くの研究は英語に捧げられている。
HASOCトラックはヒンディー語、ドイツ語、英語のヘイトスピーチ検出アルゴリズムを開発し最適化するためのプラットフォームを提供する。
データセットはtwitterアーカイブから収集され、機械学習システムによって事前に分類される。
タスクAは2進分類問題(Hate and Not Offensive)であり、タスクBは3つのクラス(Hate)のスピーチ、OFENSIVE、ProFANITYの詳細な分類問題である。
合計252台が40チームによって提出された。
タスクAの最良の分類アルゴリズムのパフォーマンスは、英語、ヒンディー語、ドイツ語でそれぞれ0.51、0.53、0.52である。
タスクbでは、最適な分類アルゴリズムは英語、ヒンディー語、ドイツ語でそれぞれ0.26、0.33、0.29である。
この記事では、タスクとデータ開発と結果について紹介します。
最高の性能のアルゴリズムは主に変換器アーキテクチャ BERT の変種である。
しかし、他のシステムも大きな成功を収めた。
関連論文リスト
- SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - AlexU-AIC at Arabic Hate Speech 2022: Contrast to Classify [2.9220076568786326]
アラビア・ヘイトスピーチ2022共有タスクワークショップ(OSACT52022)に、関連するアラビア・Twitterデータセットを用いて提出する。
攻撃的なツイートに関しては、サブタスクBは、ツイートがヘイトスピーチであるか否かを検出することに焦点を当てている。
ヘイトスピーチのつぶやきに対して、サブタスクCは6つの異なるクラス間のきめ細かいタイプのヘイトスピーチを検出することに重点を置いている。
論文 参考訳(メタデータ) (2022-07-18T12:33:51Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Meta AI at Arabic Hate Speech 2022: MultiTask Learning with
Self-Correction for Hate Speech Classification [20.632017481940075]
アラビア・ファイングレード・ヘイト音声検出共有タスクに取り組む。
課題は,(1)攻撃的言語を含むか否か,(2)ヘイトスピーチとみなすか否かを予測し,(3)ファイングレード・ヘイトスピーチラベルを6つのカテゴリのうちの1つから予測することである。
最後の解決策は,マルチタスク学習と,ヘイトスピーチのサブタスクに対して82.7%の自己整合性補正手法を用いたモデルのアンサンブルである。
論文 参考訳(メタデータ) (2022-05-16T19:53:16Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Overview of the HASOC Subtrack at FIRE 2021: Hate Speech and Offensive
Content Identification in English and Indo-Aryan Languages [4.267837363677351]
本稿では,英語,ヒンディー語,マラタイ語のHASOCサブトラックについて述べる。
データセットはTwitterから集められた。
タスクAの最良の分類アルゴリズムのパフォーマンスは、マラタイ、ヒンディー語、英語でそれぞれ0.91、0.78、0.83である。
論文 参考訳(メタデータ) (2021-12-17T03:28:54Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。