論文の概要: UPB at SemEval-2020 Task 9: Identifying Sentiment in Code-Mixed Social
Media Texts using Transformers and Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2009.02780v1
- Date: Sun, 6 Sep 2020 17:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 08:21:23.283356
- Title: UPB at SemEval-2020 Task 9: Identifying Sentiment in Code-Mixed Social
Media Texts using Transformers and Multi-Task Learning
- Title(参考訳): UPB at SemEval-2020 Task 9: Identifying Sentiment in Code-Mixed Social Media Texts using Transformers and Multi-Task Learning (英語)
- Authors: George-Eduard Zaharia, George-Alexandru Vlad, Dumitru-Clementin
Cercel, Traian Rebedea, Costin-Gabriel Chiru
- Abstract要約: 本研究チームは,SemEval-2020 Task 9のために開発したシステムについて述べる。
私たちは、ヒンディー語とスペイン語の2つのよく知られた混成言語をカバーすることを目指しています。
提案手法は, 平均F1スコアが0.6850であるヒンディー語タスクにおいて, 有望な性能を達成する。
スペイン語と英語のタスクでは、29人中17人として、平均で0.7064のF1スコアを獲得しました。
- 参考スコア(独自算出の注目度): 1.7196613099537055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is a process widely used in opinion mining campaigns
conducted today. This phenomenon presents applications in a variety of fields,
especially in collecting information related to the attitude or satisfaction of
users concerning a particular subject. However, the task of managing such a
process becomes noticeably more difficult when it is applied in cultures that
tend to combine two languages in order to express ideas and thoughts. By
interleaving words from two languages, the user can express with ease, but at
the cost of making the text far less intelligible for those who are not
familiar with this technique, but also for standard opinion mining algorithms.
In this paper, we describe the systems developed by our team for SemEval-2020
Task 9 that aims to cover two well-known code-mixed languages: Hindi-English
and Spanish-English.
We intend to solve this issue by introducing a solution that takes advantage
of several neural network approaches, as well as pre-trained word embeddings.
Our approach (multlingual BERT) achieves promising performance on the
Hindi-English task, with an average F1-score of 0.6850, registered on the
competition leaderboard, ranking our team 16th out of 62 participants. For the
Spanish-English task, we obtained an average F1-score of 0.7064 ranking our
team 17th out of 29 participants by using another multilingual
Transformer-based model, XLM-RoBERTa.
- Abstract(参考訳): 感情分析は、今日の世論調査で広く使われているプロセスである。
この現象は、様々な分野、特に特定の主題に関するユーザの態度や満足度に関する情報収集において応用される。
しかし、考えや思考を表現するために2つの言語を組み合わせる傾向にある文化において、そのようなプロセスを管理する作業が顕著に困難になる。
2つの言語から単語をインターリーブすることで、ユーザは簡単に表現できるが、このテクニックに慣れていない人だけでなく、標準的な意見マイニングアルゴリズムでも、テキストをはるかに理解しにくくすることができる。
本稿では,我々のチームがSemEval-2020 Task 9のために開発した,ヒンディー語とスペイン語の2つのコード混合言語をカバーするシステムについて述べる。
私たちは、トレーニング済みの単語埋め込みと同様に、いくつかのニューラルネットワークアプローチを活用するソリューションを導入することで、この問題を解決するつもりです。
我々のアプローチ (multlingual bert) はヒンディー語と英語のタスクで有望なパフォーマンスを達成し、平均的なf1-score は 0.6850 で、競争リーダーボードに登録され、62人中16位にランクインした。
スペイン語のタスクでは、別の多言語トランスフォーマーベースモデルであるXLM-RoBERTaを用いて、29人中17人のうち平均0.7064のF1スコアを得た。
関連論文リスト
- Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Romanian Multiword Expression Detection Using Multilingual Adversarial
Training and Lateral Inhibition [0.17188280334580194]
本稿では、PARSEME v1.2共有タスク用にリリースされたコーパス上でのルーマニア語マルチワード式の自動識別の改善について述べる。
提案手法では,最近導入された側方抑制層に基づく多言語的視点と,多言語言語モデルの性能向上のための対角訓練を仮定する。
論文 参考訳(メタデータ) (2023-04-22T09:10:49Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - IUST at SemEval-2020 Task 9: Sentiment Analysis for Code-Mixed Social
Media Text using Deep Neural Networks and Linear Baselines [6.866104126509981]
我々は、与えられたコードミックスツイートの感情を予測するシステムを開発した。
我々の最高の演奏法は、スペイン語のサブタスクに対して0.751得点、ヒンディー語のサブタスクに対して0.706スコアを得る。
論文 参考訳(メタデータ) (2020-07-24T18:48:37Z) - JUNLP@SemEval-2020 Task 9:Sentiment Analysis of Hindi-English code mixed
data using Grid Search Cross Validation [3.5169472410785367]
私たちは、Code-Mixed Sentiment Analysisのドメインに対する、もっとも有効なソリューションの開発に重点を置いています。
この作業はSemEval-2020 Sentimix Taskへの参加として行われた。
論文 参考訳(メタデータ) (2020-07-24T15:06:48Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。