論文の概要: Unsupervised Sentiment Analysis for Code-mixed Data
- arxiv url: http://arxiv.org/abs/2001.11384v1
- Date: Mon, 20 Jan 2020 06:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:05:22.946353
- Title: Unsupervised Sentiment Analysis for Code-mixed Data
- Title(参考訳): コード混合データの教師なし感性解析
- Authors: Siddharth Yadav, Tanmoy Chakraborty
- Abstract要約: モノリンガルテキストからコードミキシングテキストへの知識の伝達を効率的に行うために,多言語および多言語間埋め込みを用いた手法を提案する。
我々の手法は、英語とスペイン語のコード混合感情分析において、絶対的な3%のF1スコアを上回りました。
- 参考スコア(独自算出の注目度): 33.939487457110566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-mixing is the practice of alternating between two or more languages.
Mostly observed in multilingual societies, its occurrence is increasing and
therefore its importance. A major part of sentiment analysis research has been
monolingual, and most of them perform poorly on code-mixed text. In this work,
we introduce methods that use different kinds of multilingual and cross-lingual
embeddings to efficiently transfer knowledge from monolingual text to
code-mixed text for sentiment analysis of code-mixed text. Our methods can
handle code-mixed text through a zero-shot learning. Our methods beat
state-of-the-art on English-Spanish code-mixed sentiment analysis by absolute
3\% F1-score. We are able to achieve 0.58 F1-score (without parallel corpus)
and 0.62 F1-score (with parallel corpus) on the same benchmark in a zero-shot
way as compared to 0.68 F1-score in supervised settings. Our code is publicly
available.
- Abstract(参考訳): コード混合(code-mixing)は、2つ以上の言語を交互に使用するプラクティスである。
多言語社会では、その出現が増加し、その重要性が増している。
感情分析研究の主要な部分は単言語であり、そのほとんどがコード混合テキストの処理が不十分である。
本研究では,多言語および多言語間の埋め込みを用いて,モノリンガルテキストからコード混合テキストへの知識伝達を効率よく行う手法を提案する。
ゼロショット学習により、コード混合テキストを処理できる。
我々の手法は、英語とスペイン語のコード混合感情分析において、絶対3倍のF1スコアで最先端を破る。
我々は同じベンチマークで0.58F1スコア(並列コーパスなしで)と0.62F1スコア(並列コーパスなしで)をゼロショットで達成することができる。
私たちのコードは公開されています。
関連論文リスト
- Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Sentiment Classification of Code-Switched Text using Pre-trained
Multilingual Embeddings and Segmentation [1.290382979353427]
コード切替型感情分析のための多段階自然言語処理アルゴリズムを提案する。
提案アルゴリズムは、人間の専門知識に制限のある複数の言語の感情分析のために拡張することができる。
論文 参考訳(メタデータ) (2022-10-29T01:52:25Z) - CMSAOne@Dravidian-CodeMix-FIRE2020: A Meta Embedding and Transformer
model for Code-Mixed Sentiment Analysis on Social Media Text [9.23545668304066]
コードミックス(CM)は、発話や文で複数の言語を使用する頻繁に観察される現象です。
感性分析(SA)はNLPの基本的なステップであり、モノリンガルテキストでよく研究されている。
本稿では,dravidian code-mixedデータセット上での感情分析のためのトランスフォーマによるメタ埋め込みを提案する。
論文 参考訳(メタデータ) (2021-01-22T08:48:27Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - C1 at SemEval-2020 Task 9: SentiMix: Sentiment Analysis for Code-Mixed
Social Media Text using Feature Engineering [0.9646922337783134]
本稿では,SemEval-2020 Task 9: SentiMixのコード混合ソーシャルメディアテキストにおける感情分析における特徴工学的アプローチについて述べる。
重み付きF1スコアは、"Hinglish"タスクが0.65、"Spanglish"タスクが0.63となる。
論文 参考訳(メタデータ) (2020-08-09T00:46:26Z) - Voice@SRIB at SemEval-2020 Task 9 and 12: Stacked Ensembling method for
Sentiment and Offensiveness detection in Social Media [2.9008108937701333]
埋め込み、Sentimixのアンサンブルメソッド、OffensEvalタスクをトレーニングします。
我々は、マクロF1スコア、精度、精度、およびデータセットのリコールについて、我々のモデルを評価する。
論文 参考訳(メタデータ) (2020-07-20T11:54:43Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。