論文の概要: Sentiment Analysis of Persian-English Code-mixed Texts
- arxiv url: http://arxiv.org/abs/2102.12700v1
- Date: Thu, 25 Feb 2021 06:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-27 09:42:26.424363
- Title: Sentiment Analysis of Persian-English Code-mixed Texts
- Title(参考訳): ペルシア英語コード混合テキストの感情分析
- Authors: Nazanin Sabri, Ali Edalat, Behnam Bahrak
- Abstract要約: ソーシャルメディアデータの構造化されていない性質から,多言語テキストやコード混合テキストの例が増えている。
本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。
本稿では,BERTプレトレーニング済み埋め込みと翻訳モデルを用いて,これらのツイートの極性スコアを自動的に学習するモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid production of data on the internet and the need to understand how
users are feeling from a business and research perspective has prompted the
creation of numerous automatic monolingual sentiment detection systems. More
recently however, due to the unstructured nature of data on social media, we
are observing more instances of multilingual and code-mixed texts. This
development in content type has created a new demand for code-mixed sentiment
analysis systems. In this study we collect, label and thus create a dataset of
Persian-English code-mixed tweets. We then proceed to introduce a model which
uses BERT pretrained embeddings as well as translation models to automatically
learn the polarity scores of these Tweets. Our model outperforms the baseline
models that use Na\"ive Bayes and Random Forest methods.
- Abstract(参考訳): インターネット上のデータの迅速な生産と、ビジネスや研究の視点からユーザーの感情を理解する必要性は、多数の自動モノリンガル感情検出システムの作成を促しました。
しかし、最近では、ソーシャルメディア上のデータの構造化されていない性質から、多言語テキストやコード混合テキストの例が増えている。
コンテンツタイプのこの開発は、コード混合感情分析システムに対する新たな需要を生み出した。
本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。
次に、BERTプリトレーニングされた埋め込みを使用するモデルと、これらのツイートの極性スコアを自動的に学習する翻訳モデルを紹介します。
本モデルは,na\"ive bayesとランダムフォレスト手法を用いたベースラインモデルよりも優れている。
関連論文リスト
- Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - ULD@NUIG at SemEval-2020 Task 9: Generative Morphemes with an Attention
Model for Sentiment Analysis in Code-Mixed Text [1.4926515182392508]
本稿では,SemEval 2020 Task 9 SentiMixに寄与したGenMAモデル感情分析システムについて述べる。
このシステムは、単語レベルの言語タグを使わずに、与えられた英語とヒンディー語を混合したツイートの感情を予測することを目的としている。
論文 参考訳(メタデータ) (2020-07-27T23:58:54Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。