論文の概要: Sentiment Classification of Code-Switched Text using Pre-trained
Multilingual Embeddings and Segmentation
- arxiv url: http://arxiv.org/abs/2210.16461v1
- Date: Sat, 29 Oct 2022 01:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:13:43.355855
- Title: Sentiment Classification of Code-Switched Text using Pre-trained
Multilingual Embeddings and Segmentation
- Title(参考訳): 事前学習型多言語埋め込みとセグメンテーションを用いたコードスイッチトテキストの感性分類
- Authors: Saurav K. Aryal, Howard Prioleau, and Gloria Washington
- Abstract要約: コード切替型感情分析のための多段階自然言語処理アルゴリズムを提案する。
提案アルゴリズムは、人間の専門知識に制限のある複数の言語の感情分析のために拡張することができる。
- 参考スコア(独自算出の注目度): 1.290382979353427
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With increasing globalization and immigration, various studies have estimated
that about half of the world population is bilingual. Consequently, individuals
concurrently use two or more languages or dialects in casual conversational
settings. However, most research is natural language processing is focused on
monolingual text. To further the work in code-switched sentiment analysis, we
propose a multi-step natural language processing algorithm utilizing points of
code-switching in mixed text and conduct sentiment analysis around those
identified points. The proposed sentiment analysis algorithm uses semantic
similarity derived from large pre-trained multilingual models with a
handcrafted set of positive and negative words to determine the polarity of
code-switched text. The proposed approach outperforms a comparable baseline
model by 11.2% for accuracy and 11.64% for F1-score on a Spanish-English
dataset. Theoretically, the proposed algorithm can be expanded for sentiment
analysis of multiple languages with limited human expertise.
- Abstract(参考訳): グローバル化や移民の増加に伴い、世界の人口の約半数がバイリンガルであると推定されている。
その結果、個人はカジュアルな会話設定で2つ以上の言語または方言を同時に使用する。
しかし、ほとんどの研究は自然言語処理が単言語テキストに焦点を当てている。
コード切替型感情分析における研究をさらに進めるために,混合テキストにおけるコード切替の点を利用した多段階自然言語処理アルゴリズムを提案する。
提案する感情分析アルゴリズムは,事前学習された大規模多言語モデルから導出される意味的類似性を用いて,符号切り換え文の極性を決定する。
提案手法は、スペイン英語のデータセットにおいて、精度が11.2%、f1-scoreが11.64%と同等のベースラインモデルを上回る。
理論的には、提案アルゴリズムは人間の専門知識に制限のある複数の言語の感情分析のために拡張することができる。
関連論文リスト
- GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Sentiment Analysis on Brazilian Portuguese User Reviews [0.0]
本研究は,システム結果の極性を仮定して,文書埋め込み戦略の予測性能を解析する。
この分析には、単一のデータセットに統合されたブラジルの5つの感情分析データセットと、トレーニング、テスト、バリデーションセットの参照パーティショニングが含まれている。
論文 参考訳(メタデータ) (2021-12-10T11:18:26Z) - Monolingual and Cross-Lingual Acceptability Judgments with the Italian
CoLA corpus [2.418273287232718]
ItaCoLAコーパスは,受理性判定を伴う約1万文を含む。
また、多言語トランスフォーマーに基づくアプローチが、微調整中に2つの言語で文を使うことのメリットを評価できるかを評価することを目的とした、最初の言語間実験も提示する。
論文 参考訳(メタデータ) (2021-09-24T16:18:53Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。