論文の概要: On the logistical difficulties and findings of Jopara Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2105.02947v1
- Date: Thu, 6 May 2021 20:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:29:02.347405
- Title: On the logistical difficulties and findings of Jopara Sentiment Analysis
- Title(参考訳): Jopara Sentiment Analysisの論理的困難と発見について
- Authors: Marvin M. Ag\"uero-Torales, David Vilares, Antonio G. L\'opez-Herrera
- Abstract要約: 本稿では,グアラニ語とスペイン語のコードスイッチング言語であるJoparaの感情分析の問題に対処する。
まず,guraniが支配するツイートのコーパスを収集し,比較的分かりやすいタスクの品質データを見つけることの難しさについて考察した。
トレーニング済みの言語モデルを含む一連のニューラルモデルをトレーニングし、この低リソースのセットアップにおいて、従来の機械学習モデルよりもパフォーマンスがよいかを調査します。
- 参考スコア(独自算出の注目度): 14.341471404165349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of sentiment analysis for Jopara, a
code-switching language between Guarani and Spanish. We first collect a corpus
of Guarani-dominant tweets and discuss on the difficulties of finding quality
data for even relatively easy-to-annotate tasks, such as sentiment analysis.
Then, we train a set of neural models, including pre-trained language models,
and explore whether they perform better than traditional machine learning ones
in this low-resource setup. Transformer architectures obtain the best results,
despite not considering Guarani during pre-training, but traditional machine
learning models perform close due to the low-resource nature of the problem.
- Abstract(参考訳): 本稿では,グアラニ語とスペイン語のコードスイッチング言語であるJoparaの感情分析の問題に対処する。
まず,グアラニを主とするつぶやきのコーパスを収集し,感情分析など,比較的分かりやすいタスクの品質データを見つけることの難しさについて論じる。
そして、トレーニング済みの言語モデルを含む一連のニューラルモデルをトレーニングし、この低リソースのセットアップで従来の機械学習モデルよりもパフォーマンスが良いかを調査する。
トランスフォーマーアーキテクチャは、事前トレーニング中はグアラーニを考慮せず、最良の結果を得るが、従来の機械学習モデルは、問題の低リソース性のために近い性能を持つ。
関連論文リスト
- A deep Natural Language Inference predictor without language-specific
training data [44.26507854087991]
本研究では,言語固有の訓練データセットを使わずに,目的言語における文のペア間の推論関係(NLI)に対処するためのNLP手法を提案する。
我々は、同じトレーニング済みモデルの2つのインスタンスとともに、手動で翻訳される汎用翻訳データセットを利用する。
このモデルは、機械翻訳Stanford NLIテストデータセット、機械翻訳Multi-Genre NLIテストデータセット、手動翻訳RTE3-ITAテストデータセットで評価されている。
論文 参考訳(メタデータ) (2023-09-06T10:20:59Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Sentiment Analysis on Brazilian Portuguese User Reviews [0.0]
本研究は,システム結果の極性を仮定して,文書埋め込み戦略の予測性能を解析する。
この分析には、単一のデータセットに統合されたブラジルの5つの感情分析データセットと、トレーニング、テスト、バリデーションセットの参照パーティショニングが含まれている。
論文 参考訳(メタデータ) (2021-12-10T11:18:26Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - Comparing Feature-Engineering and Feature-Learning Approaches for
Multilingual Translationese Classification [11.364204162881482]
従来のフィーチャーエンジニアリングベースのアプローチとフィーチャーラーニングベースのアプローチを比較します。
我々は,手作りの特徴がニューラルネットワークの予測のばらつきをいかにうまく説明するかを考察する。
論文 参考訳(メタデータ) (2021-09-15T22:34:48Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Sentiment Analysis for Sinhala Language using Deep Learning Techniques [1.0499611180329804]
本稿では,RNN,LSTM,Bi-LSTM,カプセルネットワークなどの標準シーケンスモデルの利用について,より包括的な研究を行った。
この4つのクラスに注釈を付けた15059年のシンハラのニュースコメントと、948万のトークンからなるコーパスのデータセットが公開されている。
論文 参考訳(メタデータ) (2020-11-14T12:02:30Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。