Fugu-MT 論文翻訳(概要): Sentiment Analysis of Persian-English Code-mixed Texts

論文の概要: Sentiment Analysis of Persian-English Code-mixed Texts

arxiv url: http://arxiv.org/abs/2102.12700v1
Date: Thu, 25 Feb 2021 06:05:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-27 09:42:26.424363
Title: Sentiment Analysis of Persian-English Code-mixed Texts
Title（参考訳）: ペルシア英語コード混合テキストの感情分析
Authors: Nazanin Sabri, Ali Edalat, Behnam Bahrak
Abstract要約: ソーシャルメディアデータの構造化されていない性質から,多言語テキストやコード混合テキストの例が増えている。本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。本稿では,BERTプレトレーニング済み埋め込みと翻訳モデルを用いて,これらのツイートの極性スコアを自動的に学習するモデルを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid production of data on the internet and the need to understand how users are feeling from a business and research perspective has prompted the creation of numerous automatic monolingual sentiment detection systems. More recently however, due to the unstructured nature of data on social media, we are observing more instances of multilingual and code-mixed texts. This development in content type has created a new demand for code-mixed sentiment analysis systems. In this study we collect, label and thus create a dataset of Persian-English code-mixed tweets. We then proceed to introduce a model which uses BERT pretrained embeddings as well as translation models to automatically learn the polarity scores of these Tweets. Our model outperforms the baseline models that use Na\"ive Bayes and Random Forest methods.
Abstract（参考訳）: インターネット上のデータの迅速な生産と、ビジネスや研究の視点からユーザーの感情を理解する必要性は、多数の自動モノリンガル感情検出システムの作成を促しました。しかし、最近では、ソーシャルメディア上のデータの構造化されていない性質から、多言語テキストやコード混合テキストの例が増えている。コンテンツタイプのこの開発は、コード混合感情分析システムに対する新たな需要を生み出した。本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。次に、BERTプリトレーニングされた埋め込みを使用するモデルと、これらのツイートの極性スコアを自動的に学習する翻訳モデルを紹介します。本モデルは,na\"ive bayesとランダムフォレスト手法を用いたベースラインモデルよりも優れている。

関連論文リスト

Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文参考訳（メタデータ） (2023-09-19T02:59:41Z)
Leveraging Language Identification to Enhance Code-Mixed Text Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文参考訳（メタデータ） (2023-06-08T06:43:10Z)
Comparative Study of Pre-Trained BERT Models for Code-Mixed Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文参考訳（メタデータ） (2023-05-25T05:10:28Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文参考訳（メタデータ） (2021-11-18T04:07:09Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
ULD@NUIG at SemEval-2020 Task 9: Generative Morphemes with an Attention Model for Sentiment Analysis in Code-Mixed Text [1.4926515182392508]
本稿では,SemEval 2020 Task 9 SentiMixに寄与したGenMAモデル感情分析システムについて述べる。このシステムは、単語レベルの言語タグを使わずに、与えられた英語とヒンディー語を混合したツイートの感情を予測することを目的としている。
論文参考訳（メタデータ） (2020-07-27T23:58:54Z)
A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文参考訳（メタデータ） (2020-05-30T07:32:37Z)
A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。 CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2020-05-06T04:46:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。