論文の概要: Sentiment Analysis Using Aligned Word Embeddings for Uralic Languages
- arxiv url: http://arxiv.org/abs/2305.15380v1
- Date: Wed, 24 May 2023 17:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 13:51:15.061691
- Title: Sentiment Analysis Using Aligned Word Embeddings for Uralic Languages
- Title(参考訳): 単語埋め込みを用いた尿素言語に対する感性分析
- Authors: Khalid Alnajjar, Mika H\"am\"al\"ainen, Jack Rueter
- Abstract要約: 本稿では,単語埋め込みを多数言語から4つの少数言語に翻訳する手法を提案する。
さらに、感情分析を行うために、英語データに基づいてトレーニングされた新しいニューラルネットワークモデルを提案する。
我々の研究は、最先端のニューラルモデルが絶滅危惧言語で使用できることを示している。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present an approach for translating word embeddings from a
majority language into 4 minority languages: Erzya, Moksha, Udmurt and
Komi-Zyrian. Furthermore, we align these word embeddings and present a novel
neural network model that is trained on English data to conduct sentiment
analysis and then applied on endangered language data through the aligned word
embeddings. To test our model, we annotated a small sentiment analysis corpus
for the 4 endangered languages and Finnish. Our method reached at least 56\%
accuracy for each endangered language. The models and the sentiment corpus will
be released together with this paper. Our research shows that state-of-the-art
neural models can be used with endangered languages with the only requirement
being a dictionary between the endangered language and a majority language.
- Abstract(参考訳): 本稿では,多言語からの単語埋め込みを,Erzya,Moksha,Udmurt,Komi-Zyrianの4つの少数言語に翻訳する手法を提案する。
さらに、これらの単語埋め込みを整列させ、感情分析を行うために英語データに基づいて訓練された新しいニューラルネットワークモデルを示し、整列した単語埋め込みを通して絶滅危惧言語データに適用する。
このモデルをテストするために,4言語とフィンランド語に対する小さな感情分析コーパスを注釈した。
絶滅危惧言語毎に,少なくとも56 %の精度を達成できた。
モデルと感情コーパスは、この論文とともにリリースされる。
我々の研究によると、最先端のニューラルモデルは絶滅危惧言語で使用でき、唯一の要件は絶滅危惧言語と多数言語の間の辞書である。
関連論文リスト
- Ensemble Language Models for Multilingual Sentiment Analysis [0.0]
SemEval-17のツイートテキストとアラビアセンティメントのつぶやきデータセットの感情分析について検討する。
その結果,単言語モデルでは性能が優れ,アンサンブルモデルではベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-03-10T01:39:10Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Why can neural language models solve next-word prediction? A
mathematical perspective [53.807657273043446]
本研究では,英語文の実例をモデル化するための形式言語群について検討する。
我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - When Word Embeddings Become Endangered [0.685316573653194]
本稿では,異なる資源豊富な言語の単語埋め込みとリソース不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
論文 参考訳(メタデータ) (2021-03-24T15:42:53Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network [3.0168410626760034]
われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
論文 参考訳(メタデータ) (2020-04-11T22:17:04Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。