論文の概要: Sentiment Analysis Dataset in Moroccan Dialect: Bridging the Gap Between
Arabic and Latin Scripted dialect
- arxiv url: http://arxiv.org/abs/2303.15987v2
- Date: Mon, 6 Nov 2023 18:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 23:04:36.928477
- Title: Sentiment Analysis Dataset in Moroccan Dialect: Bridging the Gap Between
Arabic and Latin Scripted dialect
- Title(参考訳): モロッコ方言における感情分析データセット--アラビア語とラテン文字方言のギャップを埋める
- Authors: Mouad Jbel, Imad Hafidi, Abdulmutallib Metrane
- Abstract要約: 本研究は、モロッコの言語多様性の全スペクトルを包含する感情分析を拡張することの重要性を強調する。
多様なテキストデータを組み立てることで、モロッコ方言で20万文字のラベル付きテキストのデータセットを構築することができた。
感情分析を掘り下げるために、複数の機械学習モデルの比較研究を行い、データセットとの互換性を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis, the automated process of determining emotions or opinions
expressed in text, has seen extensive exploration in the field of natural
language processing. However, one aspect that has remained underrepresented is
the sentiment analysis of the Moroccan dialect, which boasts a unique
linguistic landscape and the coexistence of multiple scripts. Previous works in
sentiment analysis primarily targeted dialects employing Arabic script. While
these efforts provided valuable insights, they may not fully capture the
complexity of Moroccan web content, which features a blend of Arabic and Latin
script. As a result, our study emphasizes the importance of extending sentiment
analysis to encompass the entire spectrum of Moroccan linguistic diversity.
Central to our research is the creation of the largest public dataset for
Moroccan dialect sentiment analysis that incorporates not only Moroccan dialect
written in Arabic script but also in Latin letters. By assembling a diverse
range of textual data, we were able to construct a dataset with a range of 20
000 manually labeled text in Moroccan dialect and also publicly available lists
of stop words in Moroccan dialect. To dive into sentiment analysis, we
conducted a comparative study on multiple Machine learning models to assess
their compatibility with our dataset. Experiments were performed using both raw
and preprocessed data to show the importance of the preprocessing step. We were
able to achieve 92% accuracy in our model and to further prove its liability we
tested our model on smaller publicly available datasets of Moroccan dialect and
the results were favorable.
- Abstract(参考訳): 感情や意見をテキストで表現する自動的プロセスである感性分析は、自然言語処理の分野で広く研究されてきた。
しかし、まだ表現されていない側面の1つはモロッコ方言の感情分析であり、独特な言語的景観と複数の文字が共存している。
感情分析における以前の研究は主にアラビア文字を用いた方言を対象としていた。
これらの取り組みは貴重な洞察を提供したが、アラビア語とラテン文字の混合を特徴とするモロッコのウェブコンテンツの複雑さを完全に捉えていないかもしれない。
その結果,モロッコの言語多様性のスペクトル全体を網羅する感情分析の拡張の重要性が示唆された。
我々の研究の中心は、モロッコ方言の感情分析のための最大の公開データセットの作成であり、アラビア語の文字だけでなくラテン文字で書かれたモロッコ方言も含んでいる。
多様なテキストデータを組み立てることで、モロッコ方言で20000の手動ラベル付きテキストと、モロッコ方言の停止単語のリストを一般公開したデータセットを構築することができました。
感情分析を行うために,複数の機械学習モデルについて比較研究を行い,データセットとの互換性を評価した。
生データと前処理データの両方を用いて,前処理の重要性を示す実験を行った。
モデルで92%の精度を達成でき、その責任をさらに証明するために、モロッコ方言のより小さな公開データセットでモデルをテストすることができ、その結果は良好でした。
関連論文リスト
- SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14
Languages [44.44716534457111]
SemRelは14言語にわたるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters
in Hadith Domain [6.10917825357379]
アラビア語を分離する手法を評価するためのベンチマークデータセットを提案する。
このデータセットには、シャリア・アリスラムの本から約223,690語が含まれており、専門家によってラベル付けされている。
論文 参考訳(メタデータ) (2023-06-22T16:50:40Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment
Detection in an Arabic Sub-dialect [0.0]
この研究は、リビアで話されているミシュラタ・アラビア語サブ方言で書かれた詩の感情を検出することに焦点を当てた。
データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。
論文 参考訳(メタデータ) (2021-09-15T10:42:39Z) - Arabic aspect based sentiment analysis using BERT [0.0]
本稿では、BERTのような事前訓練された言語モデルからのコンテキスト埋め込みのモデリング機能について述べる。
我々は、このタスクに対処するために、シンプルだが効果的なBERTベースの神経ベースラインを構築しています。
実験結果によると, 単純な線形分類層を持つBERTアーキテクチャは, 最先端の成果を上回った。
論文 参考訳(メタデータ) (2021-07-28T11:34:00Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。