Fugu-MT 論文翻訳(概要): BnSentMix: A Diverse Bengali-English Code-Mixed Dataset for Sentiment Analysis

論文の概要: BnSentMix: A Diverse Bengali-English Code-Mixed Dataset for Sentiment Analysis

arxiv url: http://arxiv.org/abs/2408.08964v1
Date: Fri, 16 Aug 2024 18:30:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 23:16:31.324879
Title: BnSentMix: A Diverse Bengali-English Code-Mixed Dataset for Sentiment Analysis
Title（参考訳）: BnSentMix: 感情分析のための多言語ベンガル英語コードミクシングデータセット
Authors: Sadia Alam, Md Farhan Ishmam, Navid Hasin Alvee, Md Shahnewaz Siddique, Md Azam Hossain, Abu Raihan Mostofa Kamal,
Abstract要約: 我々はBnSentMixを紹介した。BnSentMixは、Facebook、YouTube、およびeコマースサイトからの4ドルの感情ラベルを持つ20,000のサンプルからなるコードミックスベンガルの感情分析データセットである。総合的精度は69.8%、F1スコアは69.1%である。
参考スコア（独自算出の注目度）: 0.08246494848934446
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The widespread availability of code-mixed data can provide valuable insights into low-resource languages like Bengali, which have limited datasets. Sentiment analysis has been a fundamental text classification task across several languages for code-mixed data. However, there has yet to be a large-scale and diverse sentiment analysis dataset on code-mixed Bengali. We address this limitation by introducing BnSentMix, a sentiment analysis dataset on code-mixed Bengali consisting of 20,000 samples with $4$ sentiment labels from Facebook, YouTube, and e-commerce sites. We ensure diversity in data sources to replicate realistic code-mixed scenarios. Additionally, we propose $14$ baseline methods including novel transformer encoders further pre-trained on code-mixed Bengali-English, achieving an overall accuracy of $69.8\%$ and an F1 score of $69.1\%$ on sentiment classification tasks. Detailed analyses reveal variations in performance across different sentiment labels and text types, highlighting areas for future improvement.
Abstract（参考訳）: コードミックスデータの普及により、限られたデータセットを持つBengaliのような低リソース言語に対する貴重な洞察を得ることができる。感性分析は、コードミックスデータに対して、複数の言語にまたがる基本的なテキスト分類タスクである。しかしながら、コードミキシングされたBengali上には、大規模で多様な感情分析データセットがまだ存在しない。 BnSentMixは、2万のサンプルとFacebook、YouTube、およびeコマースサイトからの4ドルの感情ラベルからなるコード混合ベンガルの感情分析データセットです。データソースの多様性が、現実的なコードミキシングシナリオを再現することを保証する。さらに,新たなトランスフォーマーエンコーダをコードミックスしたベンガル英語で事前学習し,総合精度が69.8\%,F1スコアが69.1\%となる14ドルのベースライン手法を提案する。詳細な分析では、さまざまな感情ラベルやテキストタイプにまたがるパフォーマンスの変化を明らかにし、将来の改善の領域を強調している。

関連論文リスト

BengaliSent140: A Large-Scale Bengali Binary Sentiment Dataset for Hate and Non-Hate Speech Classification [0.1784233255402269]
既存の7つのベンガルテキストデータセットを統一コーパスに統合して構築した大規模なバイナリ感情データセットであるBengaliSent140を紹介する。結果として得られたデータセットは、68,548のヘイトと71,244のNot-hateインスタンスを含む、139,792のユニークなテキストサンプルで構成されている。複数のソースやドメインからのデータを統合することで、BengaliSent140はより広範な言語的および文脈的カバレッジを提供する。
論文参考訳（メタデータ） (2026-01-27T23:47:46Z)
CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。 ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文参考訳（メタデータ） (2025-04-17T17:58:13Z)
SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection [76.18321723846616]
タスクは7つの異なる言語ファミリーから30以上の言語をカバーしている。データインスタンスは6つの感情クラスでマルチラベルされており、感情の強さに注釈を付けた11言語にデータセットが追加されている。参加者は, (a) マルチラベル感情検出, (b) 感情強度スコア検出, (c) 言語間感情検出の3つのトラックでラベルの予測を依頼された。
論文参考訳（メタデータ） (2025-03-10T12:49:31Z)
Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文参考訳（メタデータ） (2024-09-20T14:49:51Z)
A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文参考訳（メタデータ） (2024-03-28T12:08:39Z)
What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文参考訳（メタデータ） (2023-10-31T17:59:38Z)
SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment Analysis [26.11758147703999]
SentMix-3Lは3つの言語間のコード混合データを含む感情分析のための新しいデータセットである。 GPT-3.5は,SentMix-3L上でのトランスフォーマーモデルよりも優れていた。
論文参考訳（メタデータ） (2023-10-27T09:59:24Z)
Leveraging Language Identification to Enhance Code-Mixed Text Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文参考訳（メタデータ） (2023-06-08T06:43:10Z)
Transformer-based Model for Word Level Language Identification in Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。 The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文参考訳（メタデータ） (2022-11-26T02:39:19Z)
Language Agnostic Code-Mixing Data Augmentation by Predicting Linguistic Patterns [0.5560631344057825]
本稿では,下流感情分析タスクにおけるベースラインよりも優れたSCMデータ拡張手法を提案する。提案手法は,マトリックス言語における文の一部を一定のマスクで戦略的に置き換えることで,分類精度が著しく向上することを示す。我々は低リソースと多言語の設定でデータ拡張手法をテストし、非常に少ない英・マラヤラムデータセットで7.73%の相対的な改善を実現した。
論文参考訳（メタデータ） (2022-11-14T18:50:16Z)
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。本研究では,NLS(Neural Label Search for Summarization)を提案する。我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文参考訳（メタデータ） (2022-04-28T14:02:16Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
DravidianCodeMix: Sentiment Analysis and Offensive Language Identification Dataset for Dravidian Languages in Code-Mixed Text [0.9738927161150494]
データセットは、タミル語で約44,000のコメント、カナダ語で約7000のコメント、マラヤ語で約20,000のコメントで構成されている。このデータはボランティアアノテータによって手動で注釈付けされ、クリッペンドルフのアルファ版では高いアノテータ間合意が結ばれている。
論文参考訳（メタデータ） (2021-06-17T13:13:26Z)
Sentiment Analysis of Persian-English Code-mixed Texts [0.0]
ソーシャルメディアデータの構造化されていない性質から,多言語テキストやコード混合テキストの例が増えている。本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。本稿では,BERTプレトレーニング済み埋め込みと翻訳モデルを用いて,これらのツイートの極性スコアを自動的に学習するモデルを提案する。
論文参考訳（メタデータ） (2021-02-25T06:05:59Z)
Minimally-Supervised Structure-Rich Text Categorization via Learning on Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文参考訳（メタデータ） (2021-02-23T04:14:34Z)
CMSAOne@Dravidian-CodeMix-FIRE2020: A Meta Embedding and Transformer model for Code-Mixed Sentiment Analysis on Social Media Text [9.23545668304066]
コードミックス(CM)は、発話や文で複数の言語を使用する頻繁に観察される現象です。感性分析(SA)はNLPの基本的なステップであり、モノリンガルテキストでよく研究されている。本稿では,dravidian code-mixedデータセット上での感情分析のためのトランスフォーマによるメタ埋め込みを提案する。
論文参考訳（メタデータ） (2021-01-22T08:48:27Z)
A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文参考訳（メタデータ） (2020-05-30T07:32:37Z)
A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。 CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2020-05-06T04:46:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。