論文の概要: Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021
- arxiv url: http://arxiv.org/abs/2207.06710v1
- Date: Thu, 14 Jul 2022 07:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 00:08:53.557001
- Title: Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021
- Title(参考訳): FIRE2021におけるウルドゥー語乱用・脅威言語検出の概要
- Authors: Maaz Amjad, Alisa Zhila, Grigori Sidorov, Andrey Labunets, Sabur
Butta, Hamza Imam Amjad, Oxana Vitman, Alexander Gelbukh
- Abstract要約: 我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
- 参考スコア(独自算出の注目度): 50.591267188664666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growth of social media platform influence, the effect of their
misuse becomes more and more impactful. The importance of automatic detection
of threatening and abusive language can not be overestimated. However, most of
the existing studies and state-of-the-art methods focus on English as the
target language, with limited work on low- and medium-resource languages. In
this paper, we present two shared tasks of abusive and threatening language
detection for the Urdu language which has more than 170 million speakers
worldwide. Both are posed as binary classification tasks where participating
systems are required to classify tweets in Urdu into two classes, namely: (i)
Abusive and Non-Abusive for the first task, and (ii) Threatening and
Non-Threatening for the second. We present two manually annotated datasets
containing tweets labelled as (i) Abusive and Non-Abusive, and (ii) Threatening
and Non-Threatening. The abusive dataset contains 2400 annotated tweets in the
train part and 1100 annotated tweets in the test part. The threatening dataset
contains 6000 annotated tweets in the train part and 3950 annotated tweets in
the test part. We also provide logistic regression and BERT-based baseline
classifiers for both tasks. In this shared task, 21 teams from six countries
registered for participation (India, Pakistan, China, Malaysia, United Arab
Emirates, and Taiwan), 10 teams submitted their runs for Subtask A, which is
Abusive Language Detection and 9 teams submitted their runs for Subtask B,
which is Threatening Language detection, and seven teams submitted their
technical reports. The best performing system achieved an F1-score value of
0.880 for Subtask A and 0.545 for Subtask B. For both subtasks, m-Bert based
transformer model showed the best performance.
- Abstract(参考訳): ソーシャルメディアプラットフォームの影響が拡大するにつれ、その悪用の影響はますます強くなっている。
脅迫や虐待言語の自動検出の重要性を過大評価することはできない。
しかし、既存の研究や最先端の手法のほとんどは、低級言語と中級言語に限られる対象言語としての英語に焦点を当てている。
本稿では,全世界で1億5000万人以上の話者を抱えるウルドゥー語の言語検出を乱用し,脅迫する2つのタスクについて述べる。
どちらも、ウルドゥー語でつぶやきを2つのクラスに分類するために参加するシステムが要求されるバイナリ分類タスクとして提案されている。
一 第一の業務に対する虐待及び非虐待
(二 第二の脅威及び非脅威。)
ラベル付きツイートを含む手動注釈付きデータセットを2つ提示する。
一 虐待及び非虐待及び
(ii)脅迫、非脅迫。
乱用データセットは、列車部に2400のアノテートツイートと、テスト部に1100のアノテートツイートとを含む。
脅威データセットには、列車区間に6000の注釈付ツイートと、試験部に3950の注釈付ツイートが含まれている。
また、両方のタスクに対してロジスティック回帰とBERTベースのベースライン分類器を提供する。
この共有タスクでは、参加登録された6カ国(インド、パキスタン、中国、マレーシア、アラブ首長国連邦、台湾)から21のチームが、乱用言語検出であるSubtask Aに10のチームが、脅威言語検出であるSubtask Bに9のチームが、技術的報告を提出した。
最良性能のシステムは、サブタスクaでは0.880、サブタスクbでは0.545のf1-score値を達成している。
関連論文リスト
- Overview of the 2023 ICON Shared Task on Gendered Abuse Detection in
Indic Languages [7.869644160487393]
Indic Language における Gendered Abuse Detection に関する ICON 2023 の調査結果を報告する。
共有されたタスクは、ヒンディー語、タミル語、インドの英語方言における新しいデータセットに基づいて行われた。
この論文には、そのトピックによる憎しみのあるコンテンツの例が含まれている。
論文 参考訳(メタデータ) (2024-01-08T05:54:26Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu [55.41644538483948]
本研究は、ウルドゥー語で偽ニュースを検出するために、UrduFake@FIRE2021と名付けられた2番目の共有タスクを報告した。
提案システムは、様々なカウントベースの特徴に基づいており、異なる分類器とニューラルネットワークアーキテクチャを使用していた。
勾配降下(SGD)アルゴリズムは他の分類器よりも優れ、0.679Fスコアを達成した。
論文 参考訳(メタデータ) (2022-07-11T19:15:04Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Overview of the HASOC Subtrack at FIRE 2021: Hate Speech and Offensive
Content Identification in English and Indo-Aryan Languages [4.267837363677351]
本稿では,英語,ヒンディー語,マラタイ語のHASOCサブトラックについて述べる。
データセットはTwitterから集められた。
タスクAの最良の分類アルゴリズムのパフォーマンスは、マラタイ、ヒンディー語、英語でそれぞれ0.91、0.78、0.83である。
論文 参考訳(メタデータ) (2021-12-17T03:28:54Z) - Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach [0.0]
本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
論文 参考訳(メタデータ) (2021-11-27T20:03:19Z) - Fine-tuning of Pre-trained Transformers for Hate, Offensive, and Profane
Content Detection in English and Marathi [0.0]
本稿では,英語とインド・アーリア語におけるHate Speech and Offensive Content Identificationのために開発されたニューラルモデルについて述べる。
英語のサブタスクに対して,ヘイトスピーチ検出のための追加コーパスが微調整変圧器モデルに与える影響について検討する。
Marathiタスクに対しては,Language-Agnostic BERT Sentence Embedding (LaBSE)に基づくシステムを提案する。
論文 参考訳(メタデータ) (2021-10-25T07:11:02Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。