論文の概要: L3CubeMahaSent: A Marathi Tweet-based Sentiment Analysis Dataset
- arxiv url: http://arxiv.org/abs/2103.11408v1
- Date: Sun, 21 Mar 2021 14:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:56:58.893839
- Title: L3CubeMahaSent: A Marathi Tweet-based Sentiment Analysis Dataset
- Title(参考訳): L3CubeMahaSent: マラソンツイートに基づく感情分析データセット
- Authors: Atharva Kulkarni, Meet Mandhane, Manali Likhitkar, Gayatri Kshirsagar,
Raviraj Joshi
- Abstract要約: 本稿では,Marathi Sentiment Analysis データセットである L3MahaSent について述べる。
様々なマハラシュトリア人格のtwitterアカウントから抽出されたツイートを用いて収集される。
私たちのデータセットは3つの広いクラスvizに分類される16,000の異なるツイートで構成されています。
正、負、中立。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is one of the most fundamental tasks in Natural Language
Processing. Popular languages like English, Arabic, Russian, Mandarin, and also
Indian languages such as Hindi, Bengali, Tamil have seen a significant amount
of work in this area. However, the Marathi language which is the third most
popular language in India still lags behind due to the absence of proper
datasets. In this paper, we present the first major publicly available Marathi
Sentiment Analysis Dataset - L3CubeMahaSent. It is curated using tweets
extracted from various Maharashtrian personalities' Twitter accounts. Our
dataset consists of ~16,000 distinct tweets classified in three broad classes
viz. positive, negative, and neutral. We also present the guidelines using
which we annotated the tweets. Finally, we present the statistics of our
dataset and baseline classification results using CNN, LSTM, ULMFiT, and
BERT-based deep learning models.
- Abstract(参考訳): 感情分析は自然言語処理における最も基本的なタスクの1つである。
英語、アラビア語、ロシア語、マンダラン語、ヒンディー語、ベンガル語、タミル語などのインド諸語は、この地域でかなりの量の作業が行われている。
しかし、インドで3番目に人気のある言語であるマラタイ語は、適切なデータセットがないため、まだ遅れている。
本稿では,Marathi Sentiment Analysis Dataset - L3CubeMahaSentについて紹介する。
様々なマハラシュトリア人格のtwitterアカウントから抽出されたツイートを用いて収集される。
当社のデータセットは,3つのクラスvizに分類された,約16,000の異なるツイートで構成されています。
正、負、中立。
また、ツイートに注釈を付けたガイドラインも提示する。
最後に, CNN, LSTM, ULMFiT, BERTに基づくディープラーニングモデルを用いて, データセットおよびベースライン分類結果の統計値を示す。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models,
and Library [1.14219428942199]
インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。
L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目標としている。
我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-05-29T17:51:00Z) - Mono vs Multilingual BERT for Hate Speech Detection and Text
Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。
我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。
単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文 参考訳(メタデータ) (2022-04-19T05:07:58Z) - L3Cube-MahaHate: A Tweet-based Marathi Hate Speech Detection Dataset and
BERT models [0.7874708385247353]
インドでは、マラーティ語は広く使われている言語の一つである。
本稿では,マラウイで最初のHate SpeechデータセットであるL3Cube-MahaHateを紹介する。
論文 参考訳(メタデータ) (2022-03-25T17:00:33Z) - NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual
Sentiment Analysis [5.048355865260207]
ナイジェリアでもっとも広く話されている4言語に対して、人手によるTwitter感情データセットを初めて導入する。
データセットは1言語あたり約30,000の注釈付きツイートで構成されている。
私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。
論文 参考訳(メタデータ) (2022-01-20T16:28:06Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。