論文の概要: JUNLP@SemEval-2020 Task 9:Sentiment Analysis of Hindi-English code mixed
data using Grid Search Cross Validation
- arxiv url: http://arxiv.org/abs/2007.12561v2
- Date: Wed, 2 Sep 2020 10:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:40:35.714291
- Title: JUNLP@SemEval-2020 Task 9:Sentiment Analysis of Hindi-English code mixed
data using Grid Search Cross Validation
- Title(参考訳): junlp@semeval-2020タスク9:グリッド検索クロス検証を用いたヒンズー・イングリッシュコード混合データの強調解析
- Authors: Avishek Garain, Sainik Kumar Mahata, Dipankar Das
- Abstract要約: 私たちは、Code-Mixed Sentiment Analysisのドメインに対する、もっとも有効なソリューションの開発に重点を置いています。
この作業はSemEval-2020 Sentimix Taskへの参加として行われた。
- 参考スコア(独自算出の注目度): 3.5169472410785367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-mixing is a phenomenon which arises mainly in multilingual societies.
Multilingual people, who are well versed in their native languages and also
English speakers, tend to code-mix using English-based phonetic typing and the
insertion of anglicisms in their main language. This linguistic phenomenon
poses a great challenge to conventional NLP domains such as Sentiment Analysis,
Machine Translation, and Text Summarization, to name a few. In this work, we
focus on working out a plausible solution to the domain of Code-Mixed Sentiment
Analysis. This work was done as participation in the SemEval-2020 Sentimix
Task, where we focused on the sentiment analysis of English-Hindi code-mixed
sentences. our username for the submission was "sainik.mahata" and team name
was "JUNLP". We used feature extraction algorithms in conjunction with
traditional machine learning algorithms such as SVR and Grid Search in an
attempt to solve the task. Our approach garnered an f1-score of 66.2\% when
tested using metrics prepared by the organizers of the task.
- Abstract(参考訳): コードミキシングは、主に多言語社会で起こる現象である。
母国語や英語話者に精通している多言語住民は、英語をベースとした音声入力と、主言語へのアングリシズムの挿入を用いて、コードミックスを行う傾向にある。
この言語現象は、感情分析、機械翻訳、テキスト要約といった従来のnlpドメインに対して、いくつかの名称を付ける上で大きな課題となる。
本研究では,コード混合感情分析の領域に対する妥当な解決法の開発に焦点をあてる。
この研究はsemeval-2020 sentimixタスクへの参加として行われ、英語とヒンディー語の混成文の感情分析に焦点を当てた。
私たちのユーザ名は "sainik.mahata" で、チーム名は "JUNLP" でした。
我々は,SVRやGrid Searchといった従来の機械学習アルゴリズムと組み合わせて特徴抽出アルゴリズムを用いた。
当社のアプローチでは、タスクのオーガナイザが準備したメトリクスを使用してテストした場合、f1スコア66.2\%を達成しました。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - HPCC-YNU at SemEval-2020 Task 9: A Bilingual Vector Gating Mechanism for
Sentiment Analysis of Code-Mixed Text [10.057804086733576]
本稿では,バイリンガルなベクトルゲーティング機構をバイリンガルなリソースに利用してタスクを完了させるシステムを提案する。
私たちはパングリッシュで5位、ヒングリッシュで19位を獲得しました。
論文 参考訳(メタデータ) (2020-10-10T08:02:15Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - C1 at SemEval-2020 Task 9: SentiMix: Sentiment Analysis for Code-Mixed
Social Media Text using Feature Engineering [0.9646922337783134]
本稿では,SemEval-2020 Task 9: SentiMixのコード混合ソーシャルメディアテキストにおける感情分析における特徴工学的アプローチについて述べる。
重み付きF1スコアは、"Hinglish"タスクが0.65、"Spanglish"タスクが0.63となる。
論文 参考訳(メタデータ) (2020-08-09T00:46:26Z) - ULD@NUIG at SemEval-2020 Task 9: Generative Morphemes with an Attention
Model for Sentiment Analysis in Code-Mixed Text [1.4926515182392508]
本稿では,SemEval 2020 Task 9 SentiMixに寄与したGenMAモデル感情分析システムについて述べる。
このシステムは、単語レベルの言語タグを使わずに、与えられた英語とヒンディー語を混合したツイートの感情を予測することを目的としている。
論文 参考訳(メタデータ) (2020-07-27T23:58:54Z) - IUST at SemEval-2020 Task 9: Sentiment Analysis for Code-Mixed Social
Media Text using Deep Neural Networks and Linear Baselines [6.866104126509981]
我々は、与えられたコードミックスツイートの感情を予測するシステムを開発した。
我々の最高の演奏法は、スペイン語のサブタスクに対して0.751得点、ヒンディー語のサブタスクに対して0.706スコアを得る。
論文 参考訳(メタデータ) (2020-07-24T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。