論文の概要: Exa-PSD: a new Persian sentiment analysis dataset on Twitter
- arxiv url: http://arxiv.org/abs/2602.20892v1
- Date: Tue, 24 Feb 2026 13:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.763859
- Title: Exa-PSD: a new Persian sentiment analysis dataset on Twitter
- Title(参考訳): Exa-PSD:Twitter上の新たなペルシャ感情分析データセット
- Authors: Seyed Himan Ghaderi, Saeed Sarbazi Azad, Mohammad Mehdi Jaziriyan, Ahmad Akbari,
- Abstract要約: ペルシャ語ツイートから収集した感情分析ペルシア語データセットについて紹介する。
このデータセットには12,000のツイートが含まれており、5つのネイティブペルシャのタグが注釈付けされている。
評価は 79.87 Macro Fスコアに達し, 感情分析システムにおいて, モデルとデータに十分な価値が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today, Social networks such as Twitter are the most widely used platforms for communication of people. Analyzing this data has useful information to recognize the opinion of people in tweets. Sentiment analysis plays a vital role in NLP, which identifies the opinion of the individuals about a specific topic. Natural language processing in Persian has many challenges despite the adventure of strong language models. The datasets available in Persian are generally in special topics such as products, foods, hotels, etc while users may use ironies, colloquial phrases in social media To overcome these challenges, there is a necessity for having a dataset of Persian sentiment analysis on Twitter. In this paper, we introduce the Exa sentiment analysis Persian dataset, which is collected from Persian tweets. This dataset contains 12,000 tweets, annotated by 5 native Persian taggers. The aforementioned data is labeled in 3 classes: positive, neutral and negative. We present the characteristics and statistics of this dataset and use the pre-trained Pars Bert and Roberta as the base model to evaluate this dataset. Our evaluation reached a 79.87 Macro F-score, which shows the model and data can be adequately valuable for a sentiment analysis system.
- Abstract(参考訳): 現在、Twitterのようなソーシャルネットワークは人々のコミュニケーションのための最も広く使われているプラットフォームである。
このデータを分析することは、ツイート中の人々の意見を認識するのに有用な情報である。
感覚分析はNLPにおいて重要な役割を担い、特定の話題についての個人の意見を特定する。
ペルシア語の自然言語処理には、強力な言語モデルの冒険にもかかわらず多くの課題がある。
一般的に、ペルシア語で利用可能なデータセットは、製品、食べ物、ホテルなどの特別なトピックに置かれるが、ユーザーはソーシャルメディアで皮肉、口語句を使うことができる これらの課題を克服するためには、Twitter上でペルシア語感情分析のデータセットを持つことが必要である。
本稿では,ペルシャのつぶやきから収集したペルシアの感情分析データセットであるExaについて紹介する。
このデータセットには12,000のツイートが含まれており、5つのネイティブペルシャのタグが注釈付けされている。
上記のデータは、正、中、負の3つのクラスにラベル付けされている。
本稿では,このデータセットの特徴と統計について述べるとともに,事前学習したPars BertとRobertaをベースモデルとして用いて評価する。
評価は 79.87 Macro Fスコアに達し, 感情分析システムにおいて, モデルとデータに十分な価値が得られた。
関連論文リスト
- SenWave: A Fine-Grained Multi-Language Sentiment Analysis Dataset Sourced from COVID-19 Tweets [42.98177831933239]
SenWaveは、新型コロナウイルス(COVID-19)のツイートを分析するために特別に設計された、新しい微粒な多言語感情分析データセットである。
このデータセットは、英語とアラビア語でそれぞれ1万の注釈付きツイートと、スペイン語、フランス語、イタリア語で3万の翻訳ツイートで構成されている。
本研究は,言語,国,トピック間の進化する情緒的景観を詳細に分析し,時間とともに重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2025-10-09T13:38:05Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Constructing Colloquial Dataset for Persian Sentiment Analysis of Social
Microblogs [0.0]
本稿ではまず,ITRC-Opinionというユーザ意見データセットを協調的かつインソース的に構築する。
私たちのデータセットには、TwitterやInstagramといったソーシャルなマイクロブログから、6万の非公式で口語的なペルシア語のテキストが含まれています。
次に,畳み込みニューラルネットワーク(CNN)モデルに基づく新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-22T05:51:22Z) - Urdu Speech and Text Based Sentiment Analyzer [1.4630964945453113]
本研究は,ユーザ評価に基づく新しいマルチクラスUrduデータセットを提案する。
提案したデータセットには1万のレビューが含まれており、人間の専門家によって慎重に2つのカテゴリに分類されている。
Naivebayes、Stanza、Textblob、Vader、Frairを含む5種類のレキシコンおよびルールベースのアルゴリズムが採用され、実験の結果、Flairが70%の精度で他のテストアルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2022-07-19T10:11:22Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Arabic Offensive Language on Twitter: Analysis and Experiments [9.879488163141813]
トピック,方言,ターゲットに偏らないデータセットを構築する方法を提案する。
我々は、下品さと憎しみのスピーチに特別なタグを付けた、これまでで最大のアラビア語データセットを作成します。
論文 参考訳(メタデータ) (2020-04-05T13:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。