Fugu-MT 論文翻訳(概要): MaCmS: Magahi Code-mixed Dataset for Sentiment Analysis

論文の概要: MaCmS: Magahi Code-mixed Dataset for Sentiment Analysis

arxiv url: http://arxiv.org/abs/2403.04639v1
Date: Thu, 7 Mar 2024 16:29:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 13:23:13.589172
Title: MaCmS: Magahi Code-mixed Dataset for Sentiment Analysis
Title（参考訳）: macms: 感情分析のためのmagahi code-mixedデータセット
Authors: Priya Rani, Gaurav Negi, Theodorus Fransen, John P. McCrae
Abstract要約: このデータセットは、感情分析タスクのための最初のMagahi-Hindi-Englishコードミックスデータセットである。また、コードミキシングの構造を理解するために、データセットの言語学的解析を行う。
参考スコア（独自算出の注目度）: 1.3730706599821887
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The present paper introduces new sentiment data, MaCMS, for Magahi-Hindi-English (MHE) code-mixed language, where Magahi is a less-resourced minority language. This dataset is the first Magahi-Hindi-English code-mixed dataset for sentiment analysis tasks. Further, we also provide a linguistics analysis of the dataset to understand the structure of code-mixing and a statistical study to understand the language preferences of speakers with different polarities. With these analyses, we also train baseline models to evaluate the dataset's quality.
Abstract（参考訳）: 本稿では,magahiが少ないマイノリティ言語であるmagahi-hindi- english (mhe) code-mixed languageの新しい感情データであるmacmsを紹介する。このデータセットは、感情分析タスクのための最初のMagahi-Hindi-Englishコードミックスデータセットである。さらに,コード混合の構造を理解するためのデータセットの言語解析や,異なる極性を持つ話者の言語嗜好を理解するための統計的研究も提供する。これらの分析により、データセットの品質を評価するためのベースラインモデルのトレーニングも行う。

関連論文リスト

BanStereoSet: A Dataset to Measure Stereotypical Social Biases in LLMs for Bangla [0.0]
本研究は,バングラ語用多言語LLMにおけるステレオタイプ的社会的バイアスを評価するためのデータセットであるBanStereoSetを提示する。私たちのデータセットは、人種、職業、性別、年齢、職業の美しさ、地域、カースト、宗教の9つのカテゴリーにまたがる1,194の文で構成されています。
論文参考訳（メタデータ） (2024-09-18T02:02:30Z)
BnSentMix: A Diverse Bengali-English Code-Mixed Dataset for Sentiment Analysis [0.08246494848934446]
我々はBnSentMixを紹介した。BnSentMixは、Facebook、YouTube、およびeコマースサイトからの4つの感情ラベルを持つ20,000のサンプルからなるコードミックスベンガルの感情分析データセットである。総合的精度は69.8%、F1スコアは69.1%である。
論文参考訳（メタデータ） (2024-08-16T18:30:22Z)
Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文参考訳（メタデータ） (2024-05-31T07:51:19Z)
Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文参考訳（メタデータ） (2024-04-09T11:39:53Z)
OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for Offensive Language Identification [26.11758147703999]
コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声に混在している場合によく研究される言語現象である。 OFMix-3Lは、3つの異なる言語のコード混合データを含む新しい攻撃的言語識別データセットである。
論文参考訳（メタデータ） (2023-10-27T09:59:35Z)
Transformer-based Model for Word Level Language Identification in Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。 The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文参考訳（メタデータ） (2022-11-26T02:39:19Z)
FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文参考訳（メタデータ） (2022-10-01T05:02:04Z)
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。本研究では,NLS(Neural Label Search for Summarization)を提案する。我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文参考訳（メタデータ） (2022-04-28T14:02:16Z)
Sentiment Analysis of Persian-English Code-mixed Texts [0.0]
ソーシャルメディアデータの構造化されていない性質から,多言語テキストやコード混合テキストの例が増えている。本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。本稿では,BERTプレトレーニング済み埋め込みと翻訳モデルを用いて,これらのツイートの極性スコアを自動的に学習するモデルを提案する。
論文参考訳（メタデータ） (2021-02-25T06:05:59Z)
NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Code-Mixed Dravidian text using XLNet [0.0]
ソーシャルメディアは多言語社会に浸透してきたが、その多くは英語をコミュニケーションの言語として好んでいる。会話中に文化的な言語と英語を混ぜることで、多言語データが多くなり、今日の世界で利用できるこのコード混在データと呼ぶのは自然なことです。このようなデータを用いた下流NLPタスクは、複数の言語にまたがるセマンティックな性質のため、難しい。本稿では,自動回帰XLNetモデルを用いて,タミル・イングリッシュとマラヤラム・イングリッシュ・データセットの感情分析を行う。
論文参考訳（メタデータ） (2020-10-15T14:09:02Z)
A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文参考訳（メタデータ） (2020-05-30T07:32:37Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。