論文の概要: SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment
Analysis
- arxiv url: http://arxiv.org/abs/2310.18023v2
- Date: Wed, 29 Nov 2023 10:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:14:52.787889
- Title: SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment
Analysis
- Title(参考訳): SentMix-3L: 感性分析のためのBangla- English-Hindi Code-Mixed Dataset
- Authors: Md Nishat Raihan, Dhiman Goswami, Antara Mahmud, Antonios
Anastasopoulos, Marcos Zampieri
- Abstract要約: SentMix-3Lは3つの言語間のコード混合データを含む感情分析のための新しいデータセットである。
GPT-3.5は,SentMix-3L上でのトランスフォーマーモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 26.11758147703999
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code-mixing is a well-studied linguistic phenomenon when two or more
languages are mixed in text or speech. Several datasets have been build with
the goal of training computational models for code-mixing. Although it is very
common to observe code-mixing with multiple languages, most datasets available
contain code-mixed between only two languages. In this paper, we introduce
SentMix-3L, a novel dataset for sentiment analysis containing code-mixed data
between three languages Bangla, English, and Hindi. We carry out a
comprehensive evaluation using SentMix-3L. We show that zero-shot prompting
with GPT-3.5 outperforms all transformer-based models on SentMix-3L.
- Abstract(参考訳): コードミキシング(code-mixing)は、2つ以上の言語をテキストまたは音声で混合するよく研究された言語現象である。
コードミキシングの計算モデルをトレーニングする目的で、いくつかのデータセットが構築されている。
複数の言語でコードミキシングを観測することは一般的だが、利用可能なほとんどのデータセットは2つの言語の間でのみコードミキシングされる。
本稿では,バングラ語,英語,ヒンディー語の3言語間のコード混合データを含む感情分析のための新しいデータセットであるSentMix-3Lを紹介する。
SentMix-3Lを用いて総合評価を行う。
GPT-3.5によるゼロショットプロンプトは、SentMix-3L上のすべてのトランスフォーマーモデルより優れていることを示す。
関連論文リスト
- Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? [112.0422370149713]
我々は、トレーニングデータの分布的構成を明らかにすることを目的として、データ混合推論と呼ぶタスクに取り組む。
従来見過ごされていた情報源であるバイトペアエンコーディング(BPE)トークン化器をベースとした,新たな攻撃手法を提案する。
我々は,自然言語,プログラミング言語,データソースの既知混合に基づいて訓練されたトークン化剤に対して,高い精度で混合比を回復することを示す。
論文 参考訳(メタデータ) (2024-07-23T16:13:22Z) - EmoMix-3L: A Code-Mixed Dataset for Bangla-English-Hindi Emotion Detection [24.344204661349327]
コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声で混合されるときに発生する、よく研究された言語現象である。
EmoMix-3Lは、3つの異なる言語のコード混合データを含む、新しいマルチラベル感情検出データセットである。
論文 参考訳(メタデータ) (2024-05-11T05:58:55Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for
Offensive Language Identification [26.11758147703999]
コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声に混在している場合によく研究される言語現象である。
OFMix-3Lは、3つの異なる言語のコード混合データを含む新しい攻撃的言語識別データセットである。
論文 参考訳(メタデータ) (2023-10-27T09:59:35Z) - My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models
and Evaluation Benchmarks [0.7874708385247353]
私たちは、コードミキシングにおける事前の作業が欠けている低リソースのインドの言語であるMarathiにフォーカスしています。
L3Cube-MeCorpusは,Mr-Enコーパスと1000万のソーシャルメディア文による事前学習用コーパスである。
また、コード混合BERTベースのトランスモデルであるL3Cube-MeBERTとMeRoBERTaをMeCorpusで事前学習した。
論文 参考訳(メタデータ) (2023-06-24T18:17:38Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - CoSMix: Compositional Semantic Mix for Domain Adaptation in 3D LiDAR
Segmentation [62.259239847977014]
我々は,点雲UDA,すなわちコンポジション・セマンティック・ミックス(CoSMix)に対する試料混合の新しい手法を提案する。
CoSMixは2分岐対称ネットワークで構成されており、ラベル付き合成データ(ソース)と現実世界の非競合点雲(ターゲット)を同時に処理することができる。
我々はCoSMixを2つの大規模データセット上で評価し、最先端の手法よりも大きなマージンで優れていることを示した。
論文 参考訳(メタデータ) (2022-07-20T09:33:42Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - IIITT@Dravidian-CodeMix-FIRE2021: Transliterate or translate? Sentiment
analysis of code-mixed text in Dravidian languages [0.0]
本研究は,カナダ語,タミル語,マラヤラム語において,コードミキシングによるソーシャルメディアコメントの感情分析という形で,この研究に小さな貢献をしている。
FIRE 2021でDravidian-CodeMix氏が行った共有タスクの作業について説明している。
結果は,タミル,カナダ,マラヤラムの各タスクにおいて,最良モデルが4位,第5位,第10位であった研究論文に記録されている。
論文 参考訳(メタデータ) (2021-11-15T16:57:59Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z) - MixText: Linguistically-Informed Interpolation of Hidden Space for
Semi-Supervised Text Classification [68.15015032551214]
MixTextはテキスト分類のための半教師付き学習手法である。
TMixは、隠れた空間でテキストを補間することで、大量の拡張トレーニングサンプルを生成する。
我々は、ラベルなしデータの低エントロピーラベルを推測するために、最近のデータ拡張の進歩を活用している。
論文 参考訳(メタデータ) (2020-04-25T21:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。