論文の概要: EmoMix-3L: A Code-Mixed Dataset for Bangla-English-Hindi Emotion Detection
- arxiv url: http://arxiv.org/abs/2405.06922v1
- Date: Sat, 11 May 2024 05:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 19:22:14.388120
- Title: EmoMix-3L: A Code-Mixed Dataset for Bangla-English-Hindi Emotion Detection
- Title(参考訳): EmoMix-3L:Bangla- English-Hindi 感情検出のためのコード混合データセット
- Authors: Nishat Raihan, Dhiman Goswami, Antara Mahmud, Antonios Anastasopoulos, Marcos Zampieri,
- Abstract要約: コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声で混合されるときに発生する、よく研究された言語現象である。
EmoMix-3Lは、3つの異なる言語のコード混合データを含む、新しいマルチラベル感情検出データセットである。
- 参考スコア(独自算出の注目度): 24.344204661349327
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code-mixing is a well-studied linguistic phenomenon that occurs when two or more languages are mixed in text or speech. Several studies have been conducted on building datasets and performing downstream NLP tasks on code-mixed data. Although it is not uncommon to observe code-mixing of three or more languages, most available datasets in this domain contain code-mixed data from only two languages. In this paper, we introduce EmoMix-3L, a novel multi-label emotion detection dataset containing code-mixed data from three different languages. We experiment with several models on EmoMix-3L and we report that MuRIL outperforms other models on this dataset.
- Abstract(参考訳): コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声で混合されるときに発生する、よく研究された言語現象である。
コードミックスデータ上で、データセットの構築と下流のNLPタスクの実行について、いくつかの研究がなされている。
3つ以上の言語のコードミキシングを観測することは珍しくないが、この領域で利用可能なデータセットのほとんどは、2つの言語のみのコードミキシングデータを含んでいる。
本稿では,3言語間のコード混合データを含む新しいマルチラベル感情検出データセットであるEmoMix-3Lを紹介する。
我々はEmoMix-3Lでいくつかのモデルを実験し、MuRILが他のモデルよりも優れていることを報告した。
関連論文リスト
- Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? [112.0422370149713]
我々は、トレーニングデータの分布的構成を明らかにすることを目的として、データ混合推論と呼ぶタスクに取り組む。
従来見過ごされていた情報源であるバイトペアエンコーディング(BPE)トークン化器をベースとした,新たな攻撃手法を提案する。
我々は,自然言語,プログラミング言語,データソースの既知混合に基づいて訓練されたトークン化剤に対して,高い精度で混合比を回復することを示す。
論文 参考訳(メタデータ) (2024-07-23T16:13:22Z) - OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for
Offensive Language Identification [26.11758147703999]
コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声に混在している場合によく研究される言語現象である。
OFMix-3Lは、3つの異なる言語のコード混合データを含む新しい攻撃的言語識別データセットである。
論文 参考訳(メタデータ) (2023-10-27T09:59:35Z) - SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment
Analysis [26.11758147703999]
SentMix-3Lは3つの言語間のコード混合データを含む感情分析のための新しいデータセットである。
GPT-3.5は,SentMix-3L上でのトランスフォーマーモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-10-27T09:59:24Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - MUTANT: A Multi-sentential Code-mixed Hinglish Dataset [16.14337612590717]
本稿では,多言語記事から多文コード混合テキスト(MCT)を識別する新しいタスクを提案する。
ユースケースとして、多言語の記事を活用し、第一級の多文コード混合Hinglishデータセットを構築します。
MUTANTデータセットは67kの記事と85kのHinglish MCTからなる。
論文 参考訳(メタデータ) (2023-02-23T04:04:18Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - CoSMix: Compositional Semantic Mix for Domain Adaptation in 3D LiDAR
Segmentation [62.259239847977014]
我々は,点雲UDA,すなわちコンポジション・セマンティック・ミックス(CoSMix)に対する試料混合の新しい手法を提案する。
CoSMixは2分岐対称ネットワークで構成されており、ラベル付き合成データ(ソース)と現実世界の非競合点雲(ターゲット)を同時に処理することができる。
我々はCoSMixを2つの大規模データセット上で評価し、最先端の手法よりも大きなマージンで優れていることを示した。
論文 参考訳(メタデータ) (2022-07-20T09:33:42Z) - PreCogIIITH at HinglishEval : Leveraging Code-Mixing Metrics & Language
Model Embeddings To Estimate Code-Mix Quality [18.806186479627335]
我々は、コードミックス品質のレーティングを予測し、合成生成したコードミックステキストの品質に影響を与えるモデルを構築しようとしている。
INLG2022と協調した共有タスクであるHinglishEvalへの投稿で、私たちは、コードミックス品質のレーティングを予測することによって、合成されたコードミックステキストの品質に影響を与えるモデルを構築しようとしています。
論文 参考訳(メタデータ) (2022-06-16T08:00:42Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。