論文の概要: RideKE: Leveraging Low-Resource, User-Generated Twitter Content for Sentiment and Emotion Detection in Kenyan Code-Switched Dataset
- arxiv url: http://arxiv.org/abs/2502.06180v1
- Date: Mon, 10 Feb 2025 06:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:26.058484
- Title: RideKE: Leveraging Low-Resource, User-Generated Twitter Content for Sentiment and Emotion Detection in Kenyan Code-Switched Dataset
- Title(参考訳): RideKE:Kenyan Code-Switched Datasetにおける低リソースでユーザ生成のTwitterコンテンツを活用した感情検出
- Authors: Naome A. Etori, Maria L. Gini,
- Abstract要約: 我々は、ケニアのコード変更データを分析し、感情分類と感情分類のための4つの最先端トランスフォーマー(SOTA)モデルを評価する。
感情分析では、XLM-Rは最高精度(69.2%)、F1スコア(66.1%)、XLM-R半教師(67.2%、64.1%)を達成する。
感情分析では、DistilBERTは精度59.8%、F1は31%、mBERTは半監督的(精度59%、F1は26.5)である。
- 参考スコア(独自算出の注目度): 4.142287865325998
- License:
- Abstract: Social media has become a crucial open-access platform for individuals to express opinions and share experiences. However, leveraging low-resource language data from Twitter is challenging due to scarce, poor-quality content and the major variations in language use, such as slang and code-switching. Identifying tweets in these languages can be difficult as Twitter primarily supports high-resource languages. We analyze Kenyan code-switched data and evaluate four state-of-the-art (SOTA) transformer-based pretrained models for sentiment and emotion classification, using supervised and semi-supervised methods. We detail the methodology behind data collection and annotation, and the challenges encountered during the data curation phase. Our results show that XLM-R outperforms other models; for sentiment analysis, XLM-R supervised model achieves the highest accuracy (69.2\%) and F1 score (66.1\%), XLM-R semi-supervised (67.2\% accuracy, 64.1\% F1 score). In emotion analysis, DistilBERT supervised leads in accuracy (59.8\%) and F1 score (31\%), mBERT semi-supervised (accuracy (59\% and F1 score 26.5\%). AfriBERTa models show the lowest accuracy and F1 scores. All models tend to predict neutral sentiment, with Afri-BERT showing the highest bias and unique sensitivity to empathy emotion. https://github.com/NEtori21/Ride_hailing
- Abstract(参考訳): ソーシャルメディアは、個人が意見を述べ、経験を共有するための重要なオープンアクセスプラットフォームになっている。
しかし、Twitterから低リソースの言語データを活用することは、少ない、品質の悪いコンテンツ、スラングやコードスイッチングといった言語使用の大きなバリエーションのために難しい。
これらの言語でつぶやきを識別することは、Twitterが主に高ソース言語をサポートするため困難である。
我々はケニアのコードスイッチングデータを分析し、教師付きおよび半教師付き手法を用いて、感情分類と感情分類のための4つの最先端トランスフォーマー(SOTA)モデルを評価する。
データ収集とアノテーションの背後にある方法論と、データキュレーションフェーズで直面する課題について詳述する。
その結果,XLM-Rが他のモデルより優れており,感情分析では,XLM-Rが最高精度(69.2\%),F1が66.1\%,XLM-Rが半監督率(67.2\%,64.1\%)を達成した。
感情分析において、DistilBERTは精度59.8\%、F1スコア31\%、mBERT半監督(精度59\%、F1スコア26.5\%)を導く。
AfriBERTaモデルは低い精度とF1スコアを示す。
すべてのモデルは中立的な感情を予測する傾向があり、Afri-BERTは共感感情に対する最も高いバイアスと独特な感受性を示す。
https://github.com/NEtori21/Ride_hailing
関連論文リスト
- Political Sentiment Analysis of Persian Tweets Using CNN-LSTM Model [0.356008609689971]
ペルシャの政治ツイートの分析感情に機械学習とディープラーニングモデルを提案する。
ParsBERTの埋め込みによるディープラーニングは、機械学習よりも優れている。
論文 参考訳(メタデータ) (2023-07-15T08:08:38Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Persian Emotion Detection using ParsBERT and Imbalanced Data Handling
Approaches [0.0]
EmoParsとArmanEmoは、ペルシャ語のための新しい人間のラベル付き感情データセットである。
EmoParsを評価し,ArmanEmoと比較した。
我々のモデルはArmanEmoとEmoParsでそれぞれ0.81と0.76のマクロ平均F1スコアに達する。
論文 参考訳(メタデータ) (2022-11-15T10:22:49Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Towards Efficient NLP: A Standard Evaluation and A Strong Baseline [55.29756535335831]
本研究は, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。
ベンチマークとともに、強いベースラインであるElasticBERTの事前トレーニングとリリースも行います。
論文 参考訳(メタデータ) (2021-10-13T21:17:15Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis
and Emotion Recognition [0.30458514384586394]
HeBERTは現代ヘブライ語テキストのトランスフォーマーベースのモデルである。
HebEMOはHeBERTを使って極性を検出し、Hebrewのユーザ生成コンテンツから感情を抽出するツールだ。
論文 参考訳(メタデータ) (2021-02-03T06:59:59Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - Voice@SRIB at SemEval-2020 Task 9 and 12: Stacked Ensembling method for
Sentiment and Offensiveness detection in Social Media [2.9008108937701333]
埋め込み、Sentimixのアンサンブルメソッド、OffensEvalタスクをトレーニングします。
我々は、マクロF1スコア、精度、精度、およびデータセットのリコールについて、我々のモデルを評価する。
論文 参考訳(メタデータ) (2020-07-20T11:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。