論文の概要: MaCmS: Magahi Code-mixed Dataset for Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2403.04639v1
- Date: Thu, 7 Mar 2024 16:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:23:13.589172
- Title: MaCmS: Magahi Code-mixed Dataset for Sentiment Analysis
- Title(参考訳): macms: 感情分析のためのmagahi code-mixedデータセット
- Authors: Priya Rani, Gaurav Negi, Theodorus Fransen, John P. McCrae
- Abstract要約: このデータセットは、感情分析タスクのための最初のMagahi-Hindi-Englishコードミックスデータセットである。
また、コードミキシングの構造を理解するために、データセットの言語学的解析を行う。
- 参考スコア(独自算出の注目度): 1.3730706599821887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The present paper introduces new sentiment data, MaCMS, for
Magahi-Hindi-English (MHE) code-mixed language, where Magahi is a
less-resourced minority language. This dataset is the first
Magahi-Hindi-English code-mixed dataset for sentiment analysis tasks. Further,
we also provide a linguistics analysis of the dataset to understand the
structure of code-mixing and a statistical study to understand the language
preferences of speakers with different polarities. With these analyses, we also
train baseline models to evaluate the dataset's quality.
- Abstract(参考訳): 本稿では,magahiが少ないマイノリティ言語であるmagahi-hindi- english (mhe) code-mixed languageの新しい感情データであるmacmsを紹介する。
このデータセットは、感情分析タスクのための最初のMagahi-Hindi-Englishコードミックスデータセットである。
さらに,コード混合の構造を理解するためのデータセットの言語解析や,異なる極性を持つ話者の言語嗜好を理解するための統計的研究も提供する。
これらの分析により、データセットの品質を評価するためのベースラインモデルのトレーニングも行う。
関連論文リスト
- Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for
Offensive Language Identification [26.11758147703999]
コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声に混在している場合によく研究される言語現象である。
OFMix-3Lは、3つの異なる言語のコード混合データを含む新しい攻撃的言語識別データセットである。
論文 参考訳(メタデータ) (2023-10-27T09:59:35Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Sentiment Analysis of Persian-English Code-mixed Texts [0.0]
ソーシャルメディアデータの構造化されていない性質から,多言語テキストやコード混合テキストの例が増えている。
本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。
本稿では,BERTプレトレーニング済み埋め込みと翻訳モデルを用いて,これらのツイートの極性スコアを自動的に学習するモデルを提案する。
論文 参考訳(メタデータ) (2021-02-25T06:05:59Z) - NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of
Code-Mixed Dravidian text using XLNet [0.0]
ソーシャルメディアは多言語社会に浸透してきたが、その多くは英語をコミュニケーションの言語として好んでいる。
会話中に文化的な言語と英語を混ぜることで、多言語データが多くなり、今日の世界で利用できるこのコード混在データと呼ぶのは自然なことです。
このようなデータを用いた下流NLPタスクは、複数の言語にまたがるセマンティックな性質のため、難しい。
本稿では,自動回帰XLNetモデルを用いて,タミル・イングリッシュとマラヤラム・イングリッシュ・データセットの感情分析を行う。
論文 参考訳(メタデータ) (2020-10-15T14:09:02Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。