論文の概要: An Experimental Study on Sentiment Classification of Moroccan dialect
texts in the web
- arxiv url: http://arxiv.org/abs/2303.15987v1
- Date: Tue, 28 Mar 2023 14:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:59:09.118461
- Title: An Experimental Study on Sentiment Classification of Moroccan dialect
texts in the web
- Title(参考訳): Webにおけるモロッコ方言テキストの感性分類に関する実験的研究
- Authors: Mouad Jbel, Imad Hafidi, Abdulmutallib Metrane
- Abstract要約: 本稿では,機械学習(ML)モデルを用いたモロッコ方言のコメント分類について述べる。
多くのテキスト前処理とデータ表現技術を用いて分類結果を比較することを目指す。
プリプロセスの重要性を示すために、生データと前処理データの両方を用いて実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth of the use of social media websites, obtaining the
users' feedback automatically became a crucial task to evaluate their
tendencies and behaviors online. Despite this great availability of
information, and the increasing number of Arabic users only few research has
managed to treat Arabic dialects. The purpose of this paper is to study the
opinion and emotion expressed in real Moroccan texts precisely in the YouTube
comments using some well-known and commonly used methods for sentiment
analysis. In this paper, we present our work of Moroccan dialect comments
classification using Machine Learning (ML) models and based on our collected
and manually annotated YouTube Moroccan dialect dataset. By employing many text
preprocessing and data representation techniques we aim to compare our
classification results utilizing the most commonly used supervised classifiers:
k-nearest neighbors (KNN), Support Vector Machine (SVM), Naive Bayes (NB), and
deep learning (DL) classifiers such as Convolutional Neural Network (CNN) and
Long Short-Term Memory (LTSM). Experiments were performed using both raw and
preprocessed data to show the importance of the preprocessing. In fact, the
experimental results prove that DL models have a better performance for
Moroccan Dialect than classical approaches and we achieved an accuracy of 90%.
- Abstract(参考訳): ソーシャルメディアの利用が急速に増加し,利用者のフィードバックがオンライン上での傾向や行動を評価する上で重要な課題となった。
この膨大な情報とアラビア語利用者の増加にもかかわらず、アラビア語方言を扱った研究は少ない。
本研究の目的は,実モロッコ語テキストで表現された意見と感情を,感情分析によく知られた手法を用いてyoutubeコメントで正確に検討することである。
本稿では,機械学習(ML)モデルを用いたモロッコ語の方言コメント分類について,収集および手動注釈付きYouTubeモロッコ語の方言データセットに基づいて述べる。
k-nearest neighbors (KNN)、Support Vector Machine (SVM)、Naive Bayes (NB)、Deep Learning (DL)、Convolutional Neural Network (CNN)、Long Short-Term Memory (LTSM)といった多くのテキスト前処理とデータ表現技術を用いて分類結果を比較することを目的としている。
生データと前処理データの両方を用いて,前処理の重要性を示す実験を行った。
実際、実験の結果、DLモデルは古典的アプローチよりもモロッコ方言の方が優れた性能を示し、90%の精度を達成した。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Exploring Tokenization Strategies and Vocabulary Sizes for Enhanced Arabic Language Models [0.0]
本稿では,アラビア語モデルの性能に及ぼすトークン化戦略と語彙サイズの影響について検討する。
本研究は, 語彙サイズがモデルサイズを一定に保ちながら, モデル性能に及ぼす影響を限定的に明らかにした。
論文のレコメンデーションには、方言の課題に対処するためのトークン化戦略の洗練、多様な言語コンテキストにわたるモデルの堅牢性の向上、リッチな方言ベースのアラビア語を含むデータセットの拡大が含まれる。
論文 参考訳(メタデータ) (2024-03-17T07:44:44Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14
Languages [44.44716534457111]
SemRelは14言語にわたるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters
in Hadith Domain [6.10917825357379]
アラビア語を分離する手法を評価するためのベンチマークデータセットを提案する。
このデータセットには、シャリア・アリスラムの本から約223,690語が含まれており、専門家によってラベル付けされている。
論文 参考訳(メタデータ) (2023-06-22T16:50:40Z) - Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment
Detection in an Arabic Sub-dialect [0.0]
この研究は、リビアで話されているミシュラタ・アラビア語サブ方言で書かれた詩の感情を検出することに焦点を当てた。
データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。
論文 参考訳(メタデータ) (2021-09-15T10:42:39Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。