論文の概要: CS-Embed at SemEval-2020 Task 9: The effectiveness of code-switched word
embeddings for sentiment analysis
- arxiv url: http://arxiv.org/abs/2006.04597v2
- Date: Mon, 7 Sep 2020 10:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 23:58:09.316228
- Title: CS-Embed at SemEval-2020 Task 9: The effectiveness of code-switched word
embeddings for sentiment analysis
- Title(参考訳): CS-Embed at SemEval-2020 Task 9: 感情分析のためのコード切替単語埋め込みの有効性
- Authors: Frances Adriana Laureano De Leon and Florimond Gu\'eniat and Harish
Tayyar Madabushi
- Abstract要約: 我々は、コード変更されたつぶやき、特にSpanglishとして知られるスペイン語と英語を利用するツイートで訓練された単語埋め込みを提示する。
我々は、F-1スコア0.722の感情分類器を訓練するためにそれらを利用する。
これは0.656の競争のベースラインよりも高く、29チーム中14チームがベースラインを上回っています。
- 参考スコア(独自算出の注目度): 0.5908471365011942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing popularity and applications of sentiment analysis of social media
posts has naturally led to sentiment analysis of posts written in multiple
languages, a practice known as code-switching. While recent research into
code-switched posts has focused on the use of multilingual word embeddings,
these embeddings were not trained on code-switched data. In this work, we
present word-embeddings trained on code-switched tweets, specifically those
that make use of Spanish and English, known as Spanglish. We explore the
embedding space to discover how they capture the meanings of words in both
languages. We test the effectiveness of these embeddings by participating in
SemEval 2020 Task 9: ~\emph{Sentiment Analysis on Code-Mixed Social Media
Text}. We utilised them to train a sentiment classifier that achieves an F-1
score of 0.722. This is higher than the baseline for the competition of 0.656,
with our team (codalab username \emph{francesita}) ranking 14 out of 29
participating teams, beating the baseline.
- Abstract(参考訳): ソーシャルメディア投稿の感情分析の普及と応用は、複数の言語で書かれた投稿の感情分析を自然に引き起こしている。
コード切替ポストに関する最近の研究は、多言語単語の埋め込みの使用に焦点を当てているが、これらの埋め込みはコード切替データで訓練されていない。
本研究では、コード変更されたつぶやき、特にSpanglishとして知られるスペイン語と英語を利用した単語埋め込みについて述べる。
埋め込み空間を探索し、両言語における単語の意味をいかに捉えるかを明らかにする。
semeval 2020タスク9:~\emph{sentiment analysis on code-mixed social media text} に参加することで、埋め込みの有効性をテストする。
F-1スコア0.722の感情分類器の訓練に利用した。
これは0.656の競争のベースラインよりも高く、私たちのチーム(codalabのユーザー名 \emph{francesita})は29チーム中14位でベースラインを上回っています。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - SemEval 2024 -- Task 10: Emotion Discovery and Reasoning its Flip in
Conversation (EDiReF) [61.49972925493912]
SemEval-2024 Task 10は、コードミキシングされた対話における感情の識別に焦点を当てた共有タスクである。
このタスクは3つの異なるサブタスクから構成される - コードミックス対話のための会話における感情認識、コードミックス対話のための感情フリップ推論、および英語対話のための感情フリップ推論である。
このタスクには84人の参加者が参加し、各サブタスクのF1スコアは0.70、0.79、0.76に達した。
論文 参考訳(メタデータ) (2024-02-29T08:20:06Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - C1 at SemEval-2020 Task 9: SentiMix: Sentiment Analysis for Code-Mixed
Social Media Text using Feature Engineering [0.9646922337783134]
本稿では,SemEval-2020 Task 9: SentiMixのコード混合ソーシャルメディアテキストにおける感情分析における特徴工学的アプローチについて述べる。
重み付きF1スコアは、"Hinglish"タスクが0.65、"Spanglish"タスクが0.63となる。
論文 参考訳(メタデータ) (2020-08-09T00:46:26Z) - Writer Identification Using Microblogging Texts for Social Media
Forensics [53.180678723280145]
私たちは、文学的分析に広く使われている人気のあるスタイル的特徴と、URL、ハッシュタグ、返信、引用などの特定のTwitter機能を評価します。
我々は、様々なサイズの著者集合と、著者毎のトレーニング/テストテキストの量をテストする。
論文 参考訳(メタデータ) (2020-07-31T00:23:18Z) - JUNLP@SemEval-2020 Task 9:Sentiment Analysis of Hindi-English code mixed
data using Grid Search Cross Validation [3.5169472410785367]
私たちは、Code-Mixed Sentiment Analysisのドメインに対する、もっとも有効なソリューションの開発に重点を置いています。
この作業はSemEval-2020 Sentimix Taskへの参加として行われた。
論文 参考訳(メタデータ) (2020-07-24T15:06:48Z) - BAKSA at SemEval-2020 Task 9: Bolstering CNN with Self-Attention for
Sentiment Analysis of Code Mixed Text [4.456122555367167]
本稿では,畳み込みニューラルネット(CNN)と自己注意に基づくLSTMのアンサンブルアーキテクチャを提案する。
我々はヒンディー語(ヒングリッシュ)とスペイン語(スパングリッシュ)のデータセットでそれぞれ0.707と0.725のスコアを得た。
論文 参考訳(メタデータ) (2020-07-21T14:05:51Z) - Voice@SRIB at SemEval-2020 Task 9 and 12: Stacked Ensembling method for
Sentiment and Offensiveness detection in Social Media [2.9008108937701333]
埋め込み、Sentimixのアンサンブルメソッド、OffensEvalタスクをトレーニングします。
我々は、マクロF1スコア、精度、精度、およびデータセットのリコールについて、我々のモデルを評価する。
論文 参考訳(メタデータ) (2020-07-20T11:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。