論文の概要: Arabic Offensive Language Detection Using Machine Learning and Ensemble
Machine Learning Approaches
- arxiv url: http://arxiv.org/abs/2005.08946v1
- Date: Sat, 16 May 2020 06:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:24:14.321162
- Title: Arabic Offensive Language Detection Using Machine Learning and Ensemble
Machine Learning Approaches
- Title(参考訳): 機械学習とアンサンブル機械学習を用いたアラビア語攻撃言語検出
- Authors: Fatemah Husain
- Abstract要約: この研究は、単一の学習者機械学習アプローチに対してアンサンブル機械学習アプローチを適用することに対する大きな影響を示している。
訓練されたアンサンブル機械学習分類器のうち、バッグングは、F1スコアが88%の攻撃的言語検出において、最高のパフォーマンスを発揮する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study aims at investigating the effect of applying single learner
machine learning approach and ensemble machine learning approach for offensive
language detection on Arabic language. Classifying Arabic social media text is
a very challenging task due to the ambiguity and informality of the written
format of the text. Arabic language has multiple dialects with diverse
vocabularies and structures, which increase the complexity of obtaining high
classification performance. Our study shows significant impact for applying
ensemble machine learning approach over the single learner machine learning
approach. Among the trained ensemble machine learning classifiers, bagging
performs the best in offensive language detection with F1 score of 88%, which
exceeds the score obtained by the best single learner classifier by 6%. Our
findings highlight the great opportunities of investing more efforts in
promoting the ensemble machine learning approach solutions for offensive
language detection models.
- Abstract(参考訳): 本研究では,単一学習者の機械学習アプローチとアンサンブル機械学習アプローチがアラビア語に対する攻撃的言語検出に与える影響について検討する。
アラビア語のソーシャルメディアテキストの分類は、テキストの書式が曖昧で非公式であるため、非常に難しい作業である。
アラビア語には様々な語彙と構造を持つ複数の方言があり、高い分類性能を得る複雑さを高めている。
本研究は、単一学習者機械学習アプローチに対して、アンサンブル機械学習アプローチを適用するための大きな効果を示す。
訓練されたアンサンブル機械学習分類器のうち、バグングはf1スコア88%で攻撃的言語検出で最高の成績を示し、最良学習者分類器が獲得したスコアを6%上回った。
本研究は、攻撃的言語検出モデルのためのアンサンブル機械学習アプローチソリューションの促進により多くの努力を注ぎ込む大きな機会を浮き彫りにしている。
関連論文リスト
- Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - An ensemble-based framework for mispronunciation detection of Arabic
phonemes [0.0]
この研究は、アラビア語の音素の誤発音を定義するアンサンブルモデルを導入している。
実験結果から,メル分光法の特徴抽出手法を用いたアンサンブルアルゴリズムによる投票は,95.9%の精度で顕著な分類結果を示した。
論文 参考訳(メタデータ) (2023-01-03T22:17:08Z) - AI-based Arabic Language and Speech Tutor [1.7616042687330644]
人工知能に基づくアラビア語と音声チューター(AI-ALST)の開発のためのアプローチを提案する。
AI-ALSTシステム(AI-ALST System)は、アリゾナ大学(UA)のモロッコ方言を学ぶ学生の分析と評価を提供するインテリジェントチューターである。
AI-ALSTは、発音訓練のための各レッスンを実践するための自己学習環境を提供する。
論文 参考訳(メタデータ) (2022-10-22T04:22:16Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Efficient Measuring of Readability to Improve Documents Accessibility
for Arabic Language Learners [0.0]
この手法は、テキストの読みと理解の難易度を区別する機械学習の分類法に基づいている。
いくつかのモデルは、オンラインアラビアのウェブサイトから採掘された巨大なコーパスで訓練され、手動で注釈付けされた。
TF-IDFベクトルは単語ベースのユニグラムとビッグラムの組み合わせで訓練され、全体的な精度は4種類の複雑性に対して87.14%であった。
論文 参考訳(メタデータ) (2021-09-09T10:05:38Z) - The Challenges of Persian User-generated Textual Content: A Machine
Learning-Based Approach [0.0]
この研究は、ペルシャのユーザー生成テキストコンテンツがもたらすハードルに対処するために機械学習ベースのアプローチを適用します。
提示されたアプローチは、ペルシア語の感情分析を行うために機械翻訳データセットを使用する。
実験の結果は、これまでの試みとは対照的に、有望な最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-01-20T11:57:59Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。