Fugu-MT 論文翻訳(概要): Exa-PSD: a new Persian sentiment analysis dataset on Twitter

論文の概要: Exa-PSD: a new Persian sentiment analysis dataset on Twitter

arxiv url: http://arxiv.org/abs/2602.20892v1
Date: Tue, 24 Feb 2026 13:28:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.763859
Title: Exa-PSD: a new Persian sentiment analysis dataset on Twitter
Title（参考訳）: Exa-PSD:Twitter上の新たなペルシャ感情分析データセット
Authors: Seyed Himan Ghaderi, Saeed Sarbazi Azad, Mohammad Mehdi Jaziriyan, Ahmad Akbari,
Abstract要約: ペルシャ語ツイートから収集した感情分析ペルシア語データセットについて紹介する。このデータセットには12,000のツイートが含まれており、5つのネイティブペルシャのタグが注釈付けされている。評価は 79.87 Macro Fスコアに達し, 感情分析システムにおいて, モデルとデータに十分な価値が得られた。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Today, Social networks such as Twitter are the most widely used platforms for communication of people. Analyzing this data has useful information to recognize the opinion of people in tweets. Sentiment analysis plays a vital role in NLP, which identifies the opinion of the individuals about a specific topic. Natural language processing in Persian has many challenges despite the adventure of strong language models. The datasets available in Persian are generally in special topics such as products, foods, hotels, etc while users may use ironies, colloquial phrases in social media To overcome these challenges, there is a necessity for having a dataset of Persian sentiment analysis on Twitter. In this paper, we introduce the Exa sentiment analysis Persian dataset, which is collected from Persian tweets. This dataset contains 12,000 tweets, annotated by 5 native Persian taggers. The aforementioned data is labeled in 3 classes: positive, neutral and negative. We present the characteristics and statistics of this dataset and use the pre-trained Pars Bert and Roberta as the base model to evaluate this dataset. Our evaluation reached a 79.87 Macro F-score, which shows the model and data can be adequately valuable for a sentiment analysis system.
Abstract（参考訳）: 現在、Twitterのようなソーシャルネットワークは人々のコミュニケーションのための最も広く使われているプラットフォームである。このデータを分析することは、ツイート中の人々の意見を認識するのに有用な情報である。感覚分析はNLPにおいて重要な役割を担い、特定の話題についての個人の意見を特定する。ペルシア語の自然言語処理には、強力な言語モデルの冒険にもかかわらず多くの課題がある。一般的に、ペルシア語で利用可能なデータセットは、製品、食べ物、ホテルなどの特別なトピックに置かれるが、ユーザーはソーシャルメディアで皮肉、口語句を使うことができるこれらの課題を克服するためには、Twitter上でペルシア語感情分析のデータセットを持つことが必要である。本稿では,ペルシャのつぶやきから収集したペルシアの感情分析データセットであるExaについて紹介する。このデータセットには12,000のツイートが含まれており、5つのネイティブペルシャのタグが注釈付けされている。上記のデータは、正、中、負の3つのクラスにラベル付けされている。本稿では,このデータセットの特徴と統計について述べるとともに,事前学習したPars BertとRobertaをベースモデルとして用いて評価する。評価は 79.87 Macro Fスコアに達し, 感情分析システムにおいて, モデルとデータに十分な価値が得られた。

関連論文リスト

SenWave: A Fine-Grained Multi-Language Sentiment Analysis Dataset Sourced from COVID-19 Tweets [42.98177831933239]
SenWaveは、新型コロナウイルス(COVID-19)のツイートを分析するために特別に設計された、新しい微粒な多言語感情分析データセットである。このデータセットは、英語とアラビア語でそれぞれ1万の注釈付きツイートと、スペイン語、フランス語、イタリア語で3万の翻訳ツイートで構成されている。本研究は,言語,国,トピック間の進化する情緒的景観を詳細に分析し,時間とともに重要な洞察を明らかにする。
論文参考訳（メタデータ） (2025-10-09T13:38:05Z)
Personality Analysis for Social Media Users using Arabic language and its Effect on Sentiment Analysis [1.2903829793534267]
本研究は、Twitter上でのアラビア語の使用と性格特性と感情分析への影響の相関について検討した。本研究では、プロフィール活動から抽出した情報と、ツイートの内容に基づいて、ユーザの性格特性を示す。その結果,人格がソーシャルメディアの感情に影響を及ぼすことが明らかとなった。
論文参考訳（メタデータ） (2024-07-08T18:27:54Z)
Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文参考訳（メタデータ） (2023-11-06T19:00:05Z)
Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文参考訳（メタデータ） (2023-07-05T20:16:20Z)
Constructing Colloquial Dataset for Persian Sentiment Analysis of Social Microblogs [0.0]
本稿ではまず,ITRC-Opinionというユーザ意見データセットを協調的かつインソース的に構築する。私たちのデータセットには、TwitterやInstagramといったソーシャルなマイクロブログから、6万の非公式で口語的なペルシア語のテキストが含まれています。次に,畳み込みニューラルネットワーク(CNN)モデルに基づく新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-06-22T05:51:22Z)
Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文参考訳（メタデータ） (2023-05-25T21:01:00Z)
evaluating bert and parsbert for analyzing persian advertisement data [0.0]
この論文は、イランで製品やサービスを売買するオンラインマーケットプレイスであるDivarの例を用いている。それは、DivarのWebサイトに掲載される自動車販売広告の割合を予測するためのコンペティションを提示している。このデータセットはペルシア語のテキストデータの豊富なソースを提供するため、著者らは、ペルシア語のテキストを処理するように設計されたPythonライブラリであるHazmライブラリと、2つの最先端言語モデルであるmBERTとParsBERTを使用して分析する。
論文参考訳（メタデータ） (2023-05-03T20:50:05Z)
Urdu Speech and Text Based Sentiment Analyzer [1.4630964945453113]
本研究は,ユーザ評価に基づく新しいマルチクラスUrduデータセットを提案する。提案したデータセットには1万のレビューが含まれており、人間の専門家によって慎重に2つのカテゴリに分類されている。 Naivebayes、Stanza、Textblob、Vader、Frairを含む5種類のレキシコンおよびルールベースのアルゴリズムが採用され、実験の結果、Flairが70%の精度で他のテストアルゴリズムより優れていることが示された。
論文参考訳（メタデータ） (2022-07-19T10:11:22Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。 Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文参考訳（メタデータ） (2020-09-28T12:49:07Z)
Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文参考訳（メタデータ） (2020-08-31T17:44:28Z)
Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文参考訳（メタデータ） (2020-08-02T17:23:55Z)
Arabic Offensive Language on Twitter: Analysis and Experiments [9.879488163141813]
トピック,方言,ターゲットに偏らないデータセットを構築する方法を提案する。我々は、下品さと憎しみのスピーチに特別なタグを付けた、これまでで最大のアラビア語データセットを作成します。
論文参考訳（メタデータ） (2020-04-05T13:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。