論文の概要: Abusive and Threatening Language Detection in Urdu using Supervised
Machine Learning and Feature Combinations
- arxiv url: http://arxiv.org/abs/2204.03062v1
- Date: Wed, 6 Apr 2022 19:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:41:43.628449
- Title: Abusive and Threatening Language Detection in Urdu using Supervised
Machine Learning and Feature Combinations
- Title(参考訳): 教師付き機械学習と特徴組合せを用いたウルドゥー語における虐待・脅威言語検出
- Authors: Muhammad Humayoun
- Abstract要約: 本稿では,Urduの虐待・脅威言語検出タスク(Abusive and Threatening Language Detection Task)において,FIRE共有タスク2021に提出されたシステム記述について述べる。
我々のモデルはタスクAで0.8318 F1、タスクBで0.4931 F1、タスクAで0.8318 F1、タスクBで0.4931 F1を達成しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents the system descriptions submitted at the FIRE Shared Task
2021 on Urdu's Abusive and Threatening Language Detection Task. This challenge
aims at automatically identifying abusive and threatening tweets written in
Urdu. Our submitted results were selected for the third recognition at the
competition. This paper reports a non-exhaustive list of experiments that
allowed us to reach the submitted results. Moreover, after the result
declaration of the competition, we managed to attain even better results than
the submitted results. Our models achieved 0.8318 F1 score on Task A (Abusive
Language Detection for Urdu Tweets) and 0.4931 F1 score on Task B (Threatening
Language Detection for Urdu Tweets). Results show that Support Vector Machines
with stopwords removed, lemmatization applied, and features vector created by
the combinations of word n-grams for n=1,2,3 produced the best results for Task
A. For Task B, Support Vector Machines with stopwords removed, lemmatization
not applied, feature vector created from a pre-trained Urdu Word2Vec (on word
unigrams and bigrams), and making the dataset balanced using oversampling
technique produced the best results. The code is made available for
reproducibility.
- Abstract(参考訳): 本稿では,Urduの虐待・脅迫言語検出タスクにおけるFIRE共有タスク2021に提出されたシステム記述について述べる。
この課題は、urduで書かれた攻撃的で脅迫的なツイートを自動的に特定することを目的としている。
第3回大会には,提案結果が選定された。
本報告では,提案した結果に到達可能な実験の非実施リストを報告する。
さらに,コンペの結果宣言後,提案した結果よりも優れた結果が得られた。
提案手法では,タスクaでは0.8318 f1,タスクbでは0.4931 f1,タスクbでは0.4931 f1となった。
タスクBでは,Support Vector Machines with Stopwords removed, lemmatization not applied, lemmatization, and features vectors created by the combinations of word n-grams for n=1,2,3 produced the best results for Task A, for Task B, Support Vector Machines with stopwords removed, lemmatization not applied, feature vector created from a pre-trained Urdu Word2Vec (on word unigrams and bigrams), and make the dataset balanced using oversampling technique produced the best results。
コードは再現可能になっている。
関連論文リスト
- Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - ArNLI: Arabic Natural Language Inference for Entailment and
Contradiction Detection [1.8275108630751844]
われわれは12k以上の文からなるデータセットを作成し、ArNLIと命名した。
本研究では,言語モデルベクトルと組み合わされた矛盾ベクトルを機械学習モデルへの入力として用い,アラビア語における文対の矛盾を検出する手法を提案する。
その結果, PHEME, SICK, ArNLIの精度は99%, 60%, 75%であった。
論文 参考訳(メタデータ) (2022-09-28T09:37:16Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu [55.41644538483948]
本研究は、ウルドゥー語で偽ニュースを検出するために、UrduFake@FIRE2021と名付けられた2番目の共有タスクを報告した。
提案システムは、様々なカウントベースの特徴に基づいており、異なる分類器とニューラルネットワークアーキテクチャを使用していた。
勾配降下(SGD)アルゴリズムは他の分類器よりも優れ、0.679Fスコアを達成した。
論文 参考訳(メタデータ) (2022-07-11T19:15:04Z) - The 2021 Urdu Fake News Detection Task using Supervised Machine Learning
and Feature Combinations [0.0]
本稿では,FIRE共有タスクで提出されたシステム記述について述べる:「ウルドゥー語におけるフェイクニュース検出」。
私たちのモデルの1つで達成された最高のF1マクロスコアは0.6674であり、競争で2番目に高いスコアよりも高い。
論文 参考訳(メタデータ) (2022-04-06T20:00:37Z) - A study of text representations in Hate Speech Detection [0.0]
ヘイトフル言語に対するEUと米国の現行の法律は、ヘイトスピーチ検出タスクとパイプラインに必要な自動ツールを導いている。
本研究では,Hate音声の自動検出タスクにおいて,複数の分類アルゴリズムと組み合わせた多種多様なテキスト表現手法の性能について検討する。
論文 参考訳(メタデータ) (2021-02-08T20:39:17Z) - How to Probe Sentence Embeddings in Low-Resource Languages: On
Structural Design Choices for Probing Task Evaluation [82.96358326053115]
構造設計選択に対する探索作業結果の感度について検討する。
我々は、英語で識別する「安定な領域」にある設計選択を多言語で構成した埋め込みを探索する。
私たちは英語の結果が他の言語に移行しないことに気付きます。
論文 参考訳(メタデータ) (2020-06-16T12:37:50Z) - CS-NLP team at SemEval-2020 Task 4: Evaluation of State-of-the-art NLP
Deep Learning Architectures on Commonsense Reasoning Task [3.058685580689605]
本稿では,SemEval-2020 Task 4 competition: Commonsense Validation and Explanation (ComVE) Challengeについて述べる。
本システムは、3つの異なる自然言語推論サブタスクに対して手動でキュレートされたラベル付きテキストデータセットを使用する。
第2のサブタスクでは、声明が意味をなさない理由を選択するため、27人の参加者のうち、最初の6チーム(93.7%)で非常に競争力のある結果が得られます。
論文 参考訳(メタデータ) (2020-05-17T13:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。