論文の概要: BnSentMix: A Diverse Bengali-English Code-Mixed Dataset for Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2408.08964v1
- Date: Fri, 16 Aug 2024 18:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:16:31.324879
- Title: BnSentMix: A Diverse Bengali-English Code-Mixed Dataset for Sentiment Analysis
- Title(参考訳): BnSentMix: 感情分析のための多言語ベンガル英語コードミクシングデータセット
- Authors: Sadia Alam, Md Farhan Ishmam, Navid Hasin Alvee, Md Shahnewaz Siddique, Md Azam Hossain, Abu Raihan Mostofa Kamal,
- Abstract要約: 我々はBnSentMixを紹介した。BnSentMixは、Facebook、YouTube、およびeコマースサイトからの4ドルの感情ラベルを持つ20,000のサンプルからなるコードミックスベンガルの感情分析データセットである。
総合的精度は69.8%、F1スコアは69.1%である。
- 参考スコア(独自算出の注目度): 0.08246494848934446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread availability of code-mixed data can provide valuable insights into low-resource languages like Bengali, which have limited datasets. Sentiment analysis has been a fundamental text classification task across several languages for code-mixed data. However, there has yet to be a large-scale and diverse sentiment analysis dataset on code-mixed Bengali. We address this limitation by introducing BnSentMix, a sentiment analysis dataset on code-mixed Bengali consisting of 20,000 samples with $4$ sentiment labels from Facebook, YouTube, and e-commerce sites. We ensure diversity in data sources to replicate realistic code-mixed scenarios. Additionally, we propose $14$ baseline methods including novel transformer encoders further pre-trained on code-mixed Bengali-English, achieving an overall accuracy of $69.8\%$ and an F1 score of $69.1\%$ on sentiment classification tasks. Detailed analyses reveal variations in performance across different sentiment labels and text types, highlighting areas for future improvement.
- Abstract(参考訳): コードミックスデータの普及により、限られたデータセットを持つBengaliのような低リソース言語に対する貴重な洞察を得ることができる。
感性分析は、コードミックスデータに対して、複数の言語にまたがる基本的なテキスト分類タスクである。
しかしながら、コードミキシングされたBengali上には、大規模で多様な感情分析データセットがまだ存在しない。
BnSentMixは、2万のサンプルとFacebook、YouTube、およびeコマースサイトからの4ドルの感情ラベルからなるコード混合ベンガルの感情分析データセットです。
データソースの多様性が、現実的なコードミキシングシナリオを再現することを保証する。
さらに,新たなトランスフォーマーエンコーダをコードミックスしたベンガル英語で事前学習し,総合精度が69.8\%,F1スコアが69.1\%となる14ドルのベースライン手法を提案する。
詳細な分析では、さまざまな感情ラベルやテキストタイプにまたがるパフォーマンスの変化を明らかにし、将来の改善の領域を強調している。
関連論文リスト
- A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment
Analysis [26.11758147703999]
SentMix-3Lは3つの言語間のコード混合データを含む感情分析のための新しいデータセットである。
GPT-3.5は,SentMix-3L上でのトランスフォーマーモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-10-27T09:59:24Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - DravidianCodeMix: Sentiment Analysis and Offensive Language
Identification Dataset for Dravidian Languages in Code-Mixed Text [0.9738927161150494]
データセットは、タミル語で約44,000のコメント、カナダ語で約7000のコメント、マラヤ語で約20,000のコメントで構成されている。
このデータはボランティアアノテータによって手動で注釈付けされ、クリッペンドルフのアルファ版では高いアノテータ間合意が結ばれている。
論文 参考訳(メタデータ) (2021-06-17T13:13:26Z) - Sentiment Analysis of Persian-English Code-mixed Texts [0.0]
ソーシャルメディアデータの構造化されていない性質から,多言語テキストやコード混合テキストの例が増えている。
本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。
本稿では,BERTプレトレーニング済み埋め込みと翻訳モデルを用いて,これらのツイートの極性スコアを自動的に学習するモデルを提案する。
論文 参考訳(メタデータ) (2021-02-25T06:05:59Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - CMSAOne@Dravidian-CodeMix-FIRE2020: A Meta Embedding and Transformer
model for Code-Mixed Sentiment Analysis on Social Media Text [9.23545668304066]
コードミックス(CM)は、発話や文で複数の言語を使用する頻繁に観察される現象です。
感性分析(SA)はNLPの基本的なステップであり、モノリンガルテキストでよく研究されている。
本稿では,dravidian code-mixedデータセット上での感情分析のためのトランスフォーマによるメタ埋め込みを提案する。
論文 参考訳(メタデータ) (2021-01-22T08:48:27Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。