論文の概要: Voice@SRIB at SemEval-2020 Task 9 and 12: Stacked Ensembling method for
Sentiment and Offensiveness detection in Social Media
- arxiv url: http://arxiv.org/abs/2007.10021v3
- Date: Sun, 11 Oct 2020 10:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:38:58.726087
- Title: Voice@SRIB at SemEval-2020 Task 9 and 12: Stacked Ensembling method for
Sentiment and Offensiveness detection in Social Media
- Title(参考訳): voice@srib at semeval-2020 task 9 and 12: stacked ensembling method for sentiment and offensiveness detection in social media
- Authors: Abhishek Singh and Surya Pratap Singh Parmar
- Abstract要約: 埋め込み、Sentimixのアンサンブルメソッド、OffensEvalタスクをトレーニングします。
我々は、マクロF1スコア、精度、精度、およびデータセットのリコールについて、我々のモデルを評価する。
- 参考スコア(独自算出の注目度): 2.9008108937701333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In social-media platforms such as Twitter, Facebook, and Reddit, people
prefer to use code-mixed language such as Spanish-English, Hindi-English to
express their opinions. In this paper, we describe different models we used,
using the external dataset to train embeddings, ensembling methods for
Sentimix, and OffensEval tasks. The use of pre-trained embeddings usually helps
in multiple tasks such as sentence classification, and machine translation. In
this experiment, we haveused our trained code-mixed embeddings and twitter
pre-trained embeddings to SemEval tasks. We evaluate our models on macro
F1-score, precision, accuracy, and recall on the datasets. We intend to show
that hyper-parameter tuning and data pre-processing steps help a lot in
improving the scores. In our experiments, we are able to achieve 0.886 F1-Macro
on OffenEval Greek language subtask post-evaluation, whereas the highest is
0.852 during the Evaluation Period. We stood third in Spanglish competition
with our best F1-score of 0.756. Codalab username is asking28.
- Abstract(参考訳): Twitter、Facebook、Redditのようなソーシャルメディアプラットフォームでは、人々は自分の意見を表現するためにスペイン語、ヒンディー語などの混成言語を使うのを好む。
本稿では,組込みのトレーニングに外部データセットを使用し,sendimixのセンシングメソッドやoffensevalタスクを記述したモデルについて述べる。
事前訓練された埋め込みの使用は、通常、文分類や機械翻訳といった複数のタスクに役立つ。
この実験では、トレーニング済みのコードミックス埋め込みと、SemEvalタスクに予めトレーニング済みの埋め込みを利用した。
我々は、マクロF1スコア、精度、精度、およびデータセットのリコールでモデルを評価する。
ハイパーパラメータのチューニングとデータ前処理のステップがスコアの改善に大いに役立つことを示そうとしています。
実験では,OffenEval のギリシア語サブタスクで 0.886 F1-Macro を達成できたが,評価期間中の最高は 0.852 であった。
われわれのF1スコアは0.756で、Spanglishのコンペでは3位だった。
Codalabのユーザーネームは28。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - PSG@HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for
Offensive Language Identification in Tanglish [0.0]
本稿では,Dravidian-Codemix-HASOC2021: Hate Speech and Offensive Language Identification in Dravidian Languageについて述べる。
本課題は,ソーシャルメディアから収集したDravidian言語における,コードミキシングされたコメント・ポスト中の攻撃的コンテンツを特定することを目的とする。
論文 参考訳(メタデータ) (2021-10-06T15:23:40Z) - KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for
Detection of Hate Speech and Offensive Code-Mixed Social Media text [1.0499611180329804]
本論文では,欧州言語におけるHate Speech と Offensive Content Identification の共有タスク 2 タスクについて,KBCNMUJAL チームから提出されたシステムについて述べる。
2つのドラヴィディアン言語Vizのデータセット。
サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。
両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
論文 参考訳(メタデータ) (2021-02-19T11:08:02Z) - Phonemer at WNUT-2020 Task 2: Sequence Classification Using COVID
Twitter BERT and Bagging Ensemble Technique based on Plurality Voting [0.0]
新型コロナウイルス(COVID-19)に関連する英語のつぶやきを自動的に識別するシステムを開発した。
最終アプローチでは0.9037のF1スコアを達成し,F1スコアを評価基準として総合6位にランク付けした。
論文 参考訳(メタデータ) (2020-10-01T10:54:54Z) - WESSA at SemEval-2020 Task 9: Code-Mixed Sentiment Analysis using
Transformers [0.0]
本稿では,SemEval 2020 Task 9, Code-Mixed Social Media Text の感性分析を行う。
我々の最高の演奏システムは「XLM-RoBERTa」を微調整したトランスファーラーニングベースモデルである
その後の提出では、CodaLabのユーザネーム"ahmed0sultan"を使ってテストセットの平均F1スコアを75.9%達成することに成功した。
論文 参考訳(メタデータ) (2020-09-21T13:59:24Z) - IUST at SemEval-2020 Task 9: Sentiment Analysis for Code-Mixed Social
Media Text using Deep Neural Networks and Linear Baselines [6.866104126509981]
我々は、与えられたコードミックスツイートの感情を予測するシステムを開発した。
我々の最高の演奏法は、スペイン語のサブタスクに対して0.751得点、ヒンディー語のサブタスクに対して0.706スコアを得る。
論文 参考訳(メタデータ) (2020-07-24T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。