論文の概要: Constructing Colloquial Dataset for Persian Sentiment Analysis of Social
Microblogs
- arxiv url: http://arxiv.org/abs/2306.12679v2
- Date: Thu, 7 Mar 2024 04:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 18:19:00.192840
- Title: Constructing Colloquial Dataset for Persian Sentiment Analysis of Social
Microblogs
- Title(参考訳): ソーシャルマイクロブログのペルシャ感情分析のための口語データセットの構築
- Authors: Mojtaba Mazoochi (ICT Research Institute, Tehran, Iran), Leila Rabiei
(Iran Telecommunication Research Center (ITRC), Tehran, Iran), Farzaneh
Rahmani (Computer Department, Mehralborz University, Tehran, Iran), Zeinab
Rajabi (Computer Department, Hazrat-e Masoumeh University, Qom, Iran)
- Abstract要約: 本稿ではまず,ITRC-Opinionというユーザ意見データセットを協調的かつインソース的に構築する。
私たちのデータセットには、TwitterやInstagramといったソーシャルなマイクロブログから、6万の非公式で口語的なペルシア語のテキストが含まれています。
次に,畳み込みニューラルネットワーク(CNN)モデルに基づく新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Introduction: Microblogging websites have massed rich data sources for
sentiment analysis and opinion mining. In this regard, sentiment classification
has frequently proven inefficient because microblog posts typically lack
syntactically consistent terms and representatives since users on these social
networks do not like to write lengthy statements. Also, there are some
limitations to low-resource languages. The Persian language has exceptional
characteristics and demands unique annotated data and models for the sentiment
analysis task, which are distinctive from text features within the English
dialect. Method: This paper first constructs a user opinion dataset called
ITRC-Opinion in a collaborative environment and insource way. Our dataset
contains 60,000 informal and colloquial Persian texts from social microblogs
such as Twitter and Instagram. Second, this study proposes a new architecture
based on the convolutional neural network (CNN) model for more effective
sentiment analysis of colloquial text in social microblog posts. The
constructed datasets are used to evaluate the presented architecture.
Furthermore, some models, such as LSTM, CNN-RNN, BiLSTM, and BiGRU with
different word embeddings, including Fasttext, Glove, and Word2vec,
investigated our dataset and evaluated the results. Results: The results
demonstrate the benefit of our dataset and the proposed model (72% accuracy),
displaying meaningful improvement in sentiment classification performance.
- Abstract(参考訳): 紹介:マイクロブログサイトは、感情分析と意見マイニングのために豊富なデータソースを蓄積した。
この点において、感情分類はしばしば非効率であることが証明されている。なぜなら、マイクロブログ投稿には構文的に一貫性のある用語や代表が欠けているからだ。
また、低リソース言語にもいくつかの制限がある。
ペルシア語は例外的な特徴を持ち、英語方言のテキストの特徴と異なる感情分析タスクのための独自の注釈付きデータとモデルを要求する。
方法:本論文はまず,ITRC-Opinionと呼ばれるユーザ意見データセットを協調的かつインソース的に構築する。
当社のデータセットには、twitterやinstagramなどのソーシャルマイクロブログからの非公式で口語的なペルシャのテキストが6万件含まれています。
第2に,畳み込みニューラルネットワーク(convolutional neural network, cnn)モデルに基づく新しいアーキテクチャを提案する。
構築されたデータセットは、提示されたアーキテクチャを評価するために使用される。
さらに、LSTM、CNN-RNN、BiLSTM、BiGRUなどの異なる単語埋め込みを持つモデル(Fasttext、Glove、Word2vec)は、我々のデータセットを調査し、その結果を評価した。
結果: データセットと提案モデルの利点(72%の精度)が示され, 感情分類性能が有意義に向上した。
関連論文リスト
- The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。
以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1~5%程度であることが示唆された。
理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文 参考訳(メタデータ) (2024-11-08T21:22:37Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Convolutional Neural Networks for Sentiment Analysis on Weibo Data: A
Natural Language Processing Approach [0.228438857884398]
本研究では,Weiboの119,988ツイートのデータセット上で,畳み込みニューラルネットワーク(CNN)を用いた感情分析の複雑な課題に対処する。
CNNに基づくモデルを用いて,特徴抽出に単語埋め込みを活用し,感情分類を行う訓練を行った。
このモデルは、テストセットで平均約0.73のマクロ平均F1スコアを達成し、正、中、負の感情でバランスの取れた性能を示した。
論文 参考訳(メタデータ) (2023-07-13T03:02:56Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Detecting Offensive Language on Social Networks: An End-to-end Detection
Method based on Graph Attention Networks [7.723697303436006]
攻撃的言語検出(CT-OLD)のためのコミュニティ構造とテキスト特徴に基づくエンドツーエンド手法を提案する。
ユーザの特徴を表現するために,コミュニティ構造にユーザ意見を追加する。ユーザ意見は,ユーザ履歴行動情報によって表現され,テキスト情報によって表現されるものよりも優れる。
論文 参考訳(メタデータ) (2022-03-04T03:57:18Z) - T-BERT -- Model for Sentiment Analysis of Micro-blogs Integrating Topic
Model and BERT [0.0]
生のライブデータセットからの感情分類タスクにおけるBERT(Bidirectional Representations from Transformers)の有効性を示す。
T-BERT フレームワークは、潜在トピックとコンテキスト BERT 埋め込みを組み合わせることで得られる性能向上を示す。
論文 参考訳(メタデータ) (2021-06-02T12:01:47Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。