論文の概要: TamilEmo: Finegrained Emotion Detection Dataset for Tamil
- arxiv url: http://arxiv.org/abs/2202.04725v1
- Date: Wed, 9 Feb 2022 21:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-12 08:15:54.663584
- Title: TamilEmo: Finegrained Emotion Detection Dataset for Tamil
- Title(参考訳): tamilemo: タミルのためのきめ細かい感情検出データセット
- Authors: Charangan Vasantharajan, Sean Benhur, Prasanna Kumar Kumarasen, Rahul
Ponnusamy, Sathiyaraj Thangasamy, Ruba Priyadharshini, Thenmozhi Durairaj,
Kanchana Sivanraju, Anbukkarasi Sampath, Bharathi Raja Chakravarthi and John
Phillip McCrae
- Abstract要約: このデータセットは、中立性を含む31の感情をラベル付けした、42k以上のTamil YouTubeコメントの、手動で注釈付けされたデータセットとしては最大である。
このデータセットの目標は、タミルの複数の下流タスクにおける感情検出を改善することである。
- 参考スコア(独自算出の注目度): 0.12583362454189523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotional Analysis from textual input has been considered both a challenging
and interesting task in Natural Language Processing. However, due to the lack
of datasets in low-resource languages (i.e. Tamil), it is difficult to conduct
research of high standard in this area. Therefore we introduce this labelled
dataset (a largest manually annotated dataset of more than 42k Tamil YouTube
comments, labelled for 31 emotions including neutral) for emotion recognition.
The goal of this dataset is to improve emotion detection in multiple downstream
tasks in Tamil. We have also created three different groupings of our emotions
(3-class, 7-class and 31-class) and evaluated the model's performance on each
category of the grouping. Our MURIL-base model has achieved a 0.60 macro
average F1-score across our 3-class group dataset. With 7-class and 31-class
groups, the Random Forest model performed well with a macro average F1-scores
of 0.42 and 0.29 respectively.
- Abstract(参考訳): テキスト入力からの感情分析は自然言語処理において困難かつ興味深い課題であると考えられている。
しかし、低リソース言語(すなわちタミル語)のデータセットが不足しているため、この領域で高水準の研究を行うことは困難である。
そこで,このラベル付きデータセット(42k以上のタミル・youtubeコメントを手作業でアノテートした最大のデータセットで,31の感情を含むラベル付き)を感情認識に導入する。
このデータセットの目標は、タミルの複数の下流タスクにおける感情検出を改善することである。
また、感情の3つの異なるグループ分け(3クラス、7クラス、31クラス)を作成し、グループ分けの各カテゴリでモデルの性能を評価した。
我々のMURILベースモデルは、3クラスグループデータセット全体で0.60マクロ平均F1スコアを達成した。
7級と31級の群では、ランダムフォレストモデルはそれぞれ0.42と0.29のマクロ平均F1スコアでよく機能した。
関連論文リスト
- Nullpointer at CheckThat! 2024: Identifying Subjectivity from Multilingual Text Sequence [0.019277430130396667]
本研究は、文または段落のテキストシーケンスが主観的か客観的かを決定するために、二分分類タスクに対処する。
タスクはアラビア語、ブルガリア語、英語、ドイツ語、イタリア語の5つの言語にまたがる。
感情に基づくトランスフォーマーモデルであるMarieAngeA13/Sentiment-Analysis-BERTをデータセット上で微調整した。
論文 参考訳(メタデータ) (2024-07-14T15:37:28Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - TaTa: A Multilingual Table-to-Text Dataset for African Languages [32.348630887289524]
アフリカ言語におけるテーブル・トゥ・テキスト(TaTa)は、アフリカ言語に焦点を当てた最初の大規模多言語テーブル・トゥ・テキストデータセットである。
TaTaには、アフリカの4つの言語(Hausa、Igbo、Swahili、Yorub'a)とゼロショットテスト言語(ロシア語)を含む9つの言語で8,700の例が含まれている。
論文 参考訳(メタデータ) (2022-10-31T21:05:42Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Optimize_Prime@DravidianLangTech-ACL2022: Emotion Analysis in Tamil [1.0066310107046081]
本稿では,タミル語におけるソーシャルメディアコメントの感情分析を行うことを目的とする。
このタスクは、ソーシャルメディアのコメントを、Joy、Anger、Trust、Disgustなどの感情のカテゴリに分類することを目的としている。
論文 参考訳(メタデータ) (2022-04-19T18:47:18Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - indicnlp@kgp at DravidianLangTech-EACL2021: Offensive Language
Identification in Dravidian Languages [0.0]
この論文は、チーム indicnlp@kgp の EACL 2021 共有タスク「ドラヴィディアン言語における言語識別効果」への提出を提示する。
このタスクは、異なる攻撃的コンテンツタイプを3つのコード混合Dravidian言語データセットに分類することを目的としている。
マラヤラム英語,タミル英語,カナダ英語のデータセットでは,平均F1スコア0.97,0.77,0.72が達成された。
論文 参考訳(メタデータ) (2021-02-14T13:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。