論文の概要: Sentiment Analysis of Code-Mixed Social Media Text (Hinglish)
- arxiv url: http://arxiv.org/abs/2102.12149v1
- Date: Wed, 24 Feb 2021 09:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:34:05.064372
- Title: Sentiment Analysis of Code-Mixed Social Media Text (Hinglish)
- Title(参考訳): Code-Mixed Social Media Text (Hinglish) の感性分析
- Authors: Gaurav Singh
- Abstract要約: 感情分析のさまざまな段階は、データ統合、データクリーニング、データ変換、モデリングであった。
モデルは、SVM、KNN、Decision Trees、Random Forests、Naive Bayes、Logistic Regression、およびアンサンブル投票分類器など、さまざまな機械学習アルゴリズムを使用して作成された。
- 参考スコア(独自算出の注目度): 4.081440927534578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper discusses the results obtained for different techniques applied
for performing the sentiment analysis of social media (Twitter) code-mixed text
written in Hinglish. The various stages involved in performing the sentiment
analysis were data consolidation, data cleaning, data transformation and
modelling. Various data cleaning techniques were applied, data was cleaned in
five iterations and the results of experiments conducted were noted after each
iteration. Data was transformed using count vectorizer, one hot vectorizer,
tf-idf vectorizer, doc2vec, word2vec and fasttext embeddings. The models were
created using various machine learning algorithms such as SVM, KNN, Decision
Trees, Random Forests, Naive Bayes, Logistic Regression, and ensemble voting
classifiers. The data was obtained from a task on Codalab competition website
which was listed as Task:9 on the Semeval-2020 competition website. The models
created were evaluated using the F1-score (macro). The best F1-score of 69.07
was achieved using ensemble voting classifier.
- Abstract(参考訳): 本稿では,Hinglishで書かれたソーシャルメディア(Twitter)コード混在テキストの感情分析に応用したさまざまな手法について考察する。
感情分析の実行に関わるさまざまなステージは、データ統合、データクリーニング、データ変換、モデリングであった。
各種データクリーニング手法を適用し,5回の反復でデータクリーニングを行い,各反復後に実験結果を報告する。
データはcount vectorizer、hot vectorizer、tf-idf vectorizer、doc2vec、word2vec、fasttext embeddedsを使って変換された。
モデルは、SVM、KNN、Decision Trees、Random Forests、Naive Bayes、Logistic Regression、およびアンサンブル投票分類器など、さまざまな機械学習アルゴリズムを使用して作成された。
データは、セメバル2020コンペティションウェブサイトのTask:9にリストされたCodalabコンペティションウェブサイトのタスクから取得された。
作成したモデルはF1スコア(マクロ)を用いて評価した。
69.07の最良のF1スコアは、アンサンブル投票分類器を用いて達成された。
関連論文リスト
- Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for
Detection of Hate Speech and Offensive Code-Mixed Social Media text [1.0499611180329804]
本論文では,欧州言語におけるHate Speech と Offensive Content Identification の共有タスク 2 タスクについて,KBCNMUJAL チームから提出されたシステムについて述べる。
2つのドラヴィディアン言語Vizのデータセット。
サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。
両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
論文 参考訳(メタデータ) (2021-02-19T11:08:02Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z) - Decision Tree J48 at SemEval-2020 Task 9: Sentiment Analysis for
Code-Mixed Social Media Text (Hinglish) [3.007778295477907]
このシステムは、ツイートの分類のための分類器を提供するツールとして、Wekaを使用している。
pythonは提供されたファイルからデータをロードし、クリーニングするために使われる。
システム性能は,公式競技評価基準F1スコアを用いて評価した。
論文 参考訳(メタデータ) (2020-08-26T06:30:43Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Deep Learning Brasil -- NLP at SemEval-2020 Task 9: Overview of
Sentiment Analysis of Code-Mixed Tweets [0.2294014185517203]
本稿では、コード混在のつぶやき(ヒンズー・イングリッシュ)における感情を予測する手法について述べる。
CodaLabのVerissimo.manoelというチームが、4つのモデルのアンサンブルに基づいたアプローチを開発しました。
最終分類アルゴリズムは、これらの4つのモデルから得られる全てのソフトマックス値のいくつかの予測の集合である。
論文 参考訳(メタデータ) (2020-07-28T16:42:41Z) - Voice@SRIB at SemEval-2020 Task 9 and 12: Stacked Ensembling method for
Sentiment and Offensiveness detection in Social Media [2.9008108937701333]
埋め込み、Sentimixのアンサンブルメソッド、OffensEvalタスクをトレーニングします。
我々は、マクロF1スコア、精度、精度、およびデータセットのリコールについて、我々のモデルを評価する。
論文 参考訳(メタデータ) (2020-07-20T11:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。