論文の概要: OSACT4 Shared Task on Offensive Language Detection: Intensive
Preprocessing-Based Approach
- arxiv url: http://arxiv.org/abs/2005.07297v1
- Date: Thu, 14 May 2020 23:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 05:05:10.418494
- Title: OSACT4 Shared Task on Offensive Language Detection: Intensive
Preprocessing-Based Approach
- Title(参考訳): OSACT4 攻撃的言語検出に関する共有タスク:集中前処理に基づくアプローチ
- Authors: Fatemah Husain
- Abstract要約: 本研究では,前処理フェーズがアラビア文字のテキスト分類に与える影響について検討する。
ソーシャルメディアで使われるアラビア語は非公式であり、アラビア語の方言を用いて書かれており、テキスト分類作業は非常に複雑である。
集中的な前処理に基づくアプローチは、攻撃的な言語検出とヘイトスピーチ検出に大きな影響を与えることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The preprocessing phase is one of the key phases within the text
classification pipeline. This study aims at investigating the impact of the
preprocessing phase on text classification, specifically on offensive language
and hate speech classification for Arabic text. The Arabic language used in
social media is informal and written using Arabic dialects, which makes the
text classification task very complex. Preprocessing helps in dimensionality
reduction and removing useless content. We apply intensive preprocessing
techniques to the dataset before processing it further and feeding it into the
classification model. An intensive preprocessing-based approach demonstrates
its significant impact on offensive language detection and hate speech
detection shared tasks of the fourth workshop on Open-Source Arabic Corpora and
Corpora Processing Tools (OSACT). Our team wins the third place (3rd) in the
Sub-Task A Offensive Language Detection division and wins the first place (1st)
in the Sub-Task B Hate Speech Detection division, with an F1 score of 89% and
95%, respectively, by providing the state-of-the-art performance in terms of
F1, accuracy, recall, and precision for Arabic hate speech detection.
- Abstract(参考訳): 前処理フェーズは、テキスト分類パイプラインにおける重要なフェーズの1つである。
本研究の目的は,前処理段階がテキスト分類に与える影響,特にアラビア語テキストに対する攻撃的言語とヘイトスピーチ分類について検討することである。
ソーシャルメディアで使われるアラビア語は非公式であり、アラビア語で書かれているため、テキスト分類は非常に複雑である。
プリプロセッシングは次元の縮小と無駄なコンテンツの除去に役立つ。
集約的な前処理手法をデータセットに適用し,さらに処理を行い,分類モデルに入力する。
集中的な前処理ベースのアプローチは、オープンソースのアラビア語コーパスとコーパス処理ツール(OSACT)の第4回ワークショップで、攻撃的な言語検出とヘイトスピーチ検出の共有タスクにその大きな影響を示している。
我々のチームは、サブタスクaにおける攻撃的言語検出部門で3位、サブタスクbヘイトスピーチ検出部門で1位(第1位)を獲得し、それぞれ89%と95%のf1スコアで、アラビア語ヘイトスピーチ検出におけるf1の精度、リコール、精度で最先端のパフォーマンスを提供する。
関連論文リスト
- BanTH: A Multi-label Hate Speech Detection Dataset for Transliterated Bangla [0.0]
我々は,37.3kサンプルからなるバングラヘイト音声データセットであるBanTHを紹介する。
サンプルはYouTubeコメントからソースされ、各インスタンスに1つ以上のターゲットグループをラベル付けする。
実験により、さらに事前訓練されたエンコーダが、BanTHデータセット上で最先端のパフォーマンスを実現していることが明らかになった。
論文 参考訳(メタデータ) (2024-10-17T07:15:15Z) - Ensemble of pre-trained language models and data augmentation for hate speech detection from Arabic tweets [0.27309692684728604]
本研究では,従来手作業でラベル付けされていたアンサンブル学習と半教師付き学習を活用する新しい手法を提案する。
我々は、アラビア語のツイートを、非憎悪、一般憎悪、人種、宗教、セクシズムの5つのクラスに分類して、ベンチマークデータセットで実験を行った。
論文 参考訳(メタデータ) (2024-07-02T17:26:26Z) - Mavericks at BLP-2023 Task 1: Ensemble-based Approach Using Language
Models for Violence Inciting Text Detection [0.0]
ソーシャルメディアは、社会における憎しみや暴力的な発言の伝播を加速させてきた。
少ない研究と少ないデータにより、低リソース環境では、暴力を誘発するテキストを検出する問題がさらに悪化する。
本稿では,バングラ語処理に関する第1回ワークショップにおいて,Volence Inciting Text Detection共有タスクについて紹介する。
論文 参考訳(メタデータ) (2023-11-30T18:23:38Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Supporting Undotted Arabic with Pre-trained Language Models [0.0]
本研究では,事前学習したアラビア語モデルを適用したアラビア語の「未収録」テキストに対する効果について検討する。
そこで本研究では,事前学習したモデルを用いて未分類のテキストをサポートする方法をいくつか提案し,その性能を2つのアラビア自然言語処理タスクで測定する。
論文 参考訳(メタデータ) (2021-11-18T16:47:56Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。