論文の概要: Sentiment Analysis for YouTube Comments in Roman Urdu
- arxiv url: http://arxiv.org/abs/2102.10075v1
- Date: Fri, 19 Feb 2021 18:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 01:54:39.617244
- Title: Sentiment Analysis for YouTube Comments in Roman Urdu
- Title(参考訳): ローマ・ウルドゥーにおけるYouTubeコメントの感情分析
- Authors: Tooba Tehreem (Hira Tahir National University of Computer and Emerging
Sciences Islamabad, Pakistan)
- Abstract要約: パキスタンでは、膨大なデータがローマ語でUrdu語であり、Twitter、YouTube、Facebook、および同様のアプリケーションを含むソーシャルサイト全体に分散しています。
この研究では、データセット収集の焦点領域はYouTubeコメントです。
データセットには、パキスタンのさまざまなドラマやテレビ番組に関する人々のコメントが含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sentiment analysis is a vast area in the Machine learning domain. A lot of
work is done on datasets and their analysis of the English Language. In
Pakistan, a huge amount of data is in roman Urdu language, it is scattered all
over the social sites including Twitter, YouTube, Facebook and similar
applications. In this study the focus domain of dataset gathering is YouTube
comments. The Dataset contains the comments of people over different Pakistani
dramas and TV shows. The Dataset contains multi-class classification that is
grouped The comments into positive, negative and neutral sentiment. In this
Study comparative analysis is done for five supervised learning Algorithms
including linear regression, SVM, KNN, Multi layer Perceptron and Na\"ive Bayes
classifier. Accuracy, recall, precision and F-measure are used for measuring
performance. Results show that accuracy of SVM is 64 percent, which is better
than the rest of the list.
- Abstract(参考訳): 知覚分析は機械学習領域における広大な領域である。
データセットとその英語の分析に関する多くの作業が行われている。
パキスタンでは、膨大なデータがローマ語でUrdu語であり、Twitter、YouTube、Facebook、および同様のアプリケーションを含むソーシャルサイト全体に分散しています。
この研究では、データセット収集の焦点領域はYouTubeコメントです。
Datasetには、パキスタンのさまざまなドラマやテレビ番組に関する人々のコメントが含まれている。
Datasetには、コメントを肯定的、否定的、中立的な感情に分類するマルチクラス分類が含まれている。
本研究では,線形回帰,SVM,KNN,Multi Layer Perceptron,Na\"ive Bayes分類器を含む5つの教師付き学習アルゴリズムの比較分析を行った。
性能測定には精度、リコール、精度、F測定が用いられる。
その結果、SVMの精度は64パーセントであり、リストの他の部分よりも優れています。
関連論文リスト
- IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context [32.48196952339581]
インドにおける社会的バイアスを評価するためのベンチマークデータセットであるIndiBiasを紹介する。
バイアスの次元には、性別、宗教、キャスト、年齢、地域、身体的外観、職業が含まれる。
我々のデータセットには800の文対と300の偏差測定が含まれている。
論文 参考訳(メタデータ) (2024-03-29T12:32:06Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Constructing Colloquial Dataset for Persian Sentiment Analysis of Social
Microblogs [0.0]
本稿ではまず,ITRC-Opinionというユーザ意見データセットを協調的かつインソース的に構築する。
私たちのデータセットには、TwitterやInstagramといったソーシャルなマイクロブログから、6万の非公式で口語的なペルシア語のテキストが含まれています。
次に,畳み込みニューラルネットワーク(CNN)モデルに基づく新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-22T05:51:22Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Urdu Speech and Text Based Sentiment Analyzer [1.4630964945453113]
本研究は,ユーザ評価に基づく新しいマルチクラスUrduデータセットを提案する。
提案したデータセットには1万のレビューが含まれており、人間の専門家によって慎重に2つのカテゴリに分類されている。
Naivebayes、Stanza、Textblob、Vader、Frairを含む5種類のレキシコンおよびルールベースのアルゴリズムが採用され、実験の結果、Flairが70%の精度で他のテストアルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2022-07-19T10:11:22Z) - L3CubeMahaSent: A Marathi Tweet-based Sentiment Analysis Dataset [0.0]
本稿では,Marathi Sentiment Analysis データセットである L3MahaSent について述べる。
様々なマハラシュトリア人格のtwitterアカウントから抽出されたツイートを用いて収集される。
私たちのデータセットは3つの広いクラスvizに分類される16,000の異なるツイートで構成されています。
正、負、中立。
論文 参考訳(メタデータ) (2021-03-21T14:22:13Z) - Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文 参考訳(メタデータ) (2020-12-17T15:53:54Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。