論文の概要: A Deep CNN Architecture with Novel Pooling Layer Applied to Two Sudanese
Arabic Sentiment Datasets
- arxiv url: http://arxiv.org/abs/2201.12664v1
- Date: Sat, 29 Jan 2022 21:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:19:50.869242
- Title: A Deep CNN Architecture with Novel Pooling Layer Applied to Two Sudanese
Arabic Sentiment Datasets
- Title(参考訳): 2つのスーダンアラビア感覚データセットに適用した新しいポーリング層を有する深層CNNアーキテクチャ
- Authors: Mustafa Mhamed, Richard Sutcliffe, Xia Sun, Jun Feng, Eiad Almekhlafi,
Ephrem A. Retta
- Abstract要約: 2-class Sudanese Sentimentデータセットと3-class Sudanese Sentimentデータセットだ。
5つのCNN層と新しいプール層であるMMAからなるCNNアーキテクチャを提案する。
提案したモデルは、既存のサウジセンティメントデータセットと、85.55%と90.01%の精度でMSAホテルアラビアレビューデータセットに適用される。
- 参考スコア(独自算出の注目度): 1.1034493405536276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arabic sentiment analysis has become an important research field in recent
years. Initially, work focused on Modern Standard Arabic (MSA), which is the
most widely-used form. Since then, work has been carried out on several
different dialects, including Egyptian, Levantine and Moroccan. Moreover, a
number of datasets have been created to support such work. However, up until
now, less work has been carried out on Sudanese Arabic, a dialect which has 32
million speakers. In this paper, two new publicly available datasets are
introduced, the 2-Class Sudanese Sentiment Dataset (SudSenti2) and the 3-Class
Sudanese Sentiment Dataset (SudSenti3). Furthermore, a CNN architecture, SCM,
is proposed, comprising five CNN layers together with a novel pooling layer,
MMA, to extract the best features. This SCM+MMA model is applied to SudSenti2
and SudSenti3 with accuracies of 92.75% and 84.39%. Next, the model is compared
to other deep learning classifiers and shown to be superior on these new
datasets. Finally, the proposed model is applied to the existing Saudi
Sentiment Dataset and to the MSA Hotel Arabic Review Dataset with accuracies
85.55% and 90.01%.
- Abstract(参考訳): アラビア語の感情分析は近年重要な研究分野となっている。
当初は最も広く使われている現代標準アラビア語(msa)に焦点を当てていた。
それ以来、エジプト語、レバンティン語、モロッコ語などいくつかの方言で研究が行われている。
さらに、そのような作業をサポートするために、多くのデータセットが作成されています。
しかし、これまでは2200万人の話者を持つ方言であるスーダンのアラビア語に関する作業は少なくなっていた。
本稿では,2-class Sudanese Sentiment Dataset (SudSenti2) と3-class Sudanese Sentiment Dataset (SudSenti3) という2つの新しいデータセットを紹介する。
さらに,5つのCNN層と新しいプール層であるMMAからなるCNNアーキテクチャ,SCMを提案する。
このSCM+MMAモデルは、92.75%と84.39%の精度でSudSenti2とSudSenti3に適用される。
次に、モデルは他のディープラーニング分類器と比較され、これらの新しいデータセットよりも優れていることを示す。
最後に、提案されたモデルは、既存のサウジセンティメントデータセットとMSAホテルアラビアレビューデータセットに85.55%、90.01%の精度で適用される。
関連論文リスト
- Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [53.1913348687902]
アラビア語に対する最初のマルチタスク言語理解ベンチマークであるアラビアMMLUを提示する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575の多重選択質問からなる。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - ArBanking77: Intent Detection Neural Model and a New Dataset in Modern
and Dialectical Arabic [0.4999814847776097]
本稿では,銀行ドメインにおける意図検出のための大規模アラビア語データセットであるArBanking77について述べる。
我々のデータセットは、現代標準アラビア語(MSA)とパレスチナ方言の両方で31,404のクエリで、もともとのBritish Banking77データセットからアラベライズされ、ローカライズされた。
AraBERTに基づくニューラルネットワークをArBanking77で微調整し,MSAおよびパレスチナ方言で0.9209と0.8995のF1スコアを達成した。
論文 参考訳(メタデータ) (2023-10-29T14:46:11Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Data Augmentation using Transformers and Similarity Measures for
Improving Arabic Text Classification [0.0]
本稿では,最近の強力なモデリング手法であるAraGPT-2を用いた新しいアラビアDA手法を提案する。
生成された文は、ユークリッド、コサイン、ジャカード、BLEU距離を用いて、文脈、意味、多様性、新規性の観点から評価される。
AraSarcasm, ASTD, ATT, MOVIEの4つの感情アラビアデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-12-28T16:38:43Z) - Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。
MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文 参考訳(メタデータ) (2022-01-19T06:32:25Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - AraDIC: Arabic Document Classification using Image-Based Character
Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。
AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。
我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文 参考訳(メタデータ) (2020-06-20T14:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。