論文の概要: Semantic Enrichment of Nigerian Pidgin English for Contextual Sentiment
Classification
- arxiv url: http://arxiv.org/abs/2003.12450v1
- Date: Fri, 27 Mar 2020 14:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:04:22.706905
- Title: Semantic Enrichment of Nigerian Pidgin English for Contextual Sentiment
Classification
- Title(参考訳): ナイジェリア・ピジン英語の文脈知覚分類のためのセマンティックエンリッチメント
- Authors: Wuraola Fisayo Oyewusi, Olubayo Adekanmbi and Olalekan Akinsande
- Abstract要約: ナイジェリアの英語適応であるPidginは、多言語コードの切り替え、コードミキシング、言語適応を通じて、長年にわたって進化してきた。
この作品では、ナイジェリアのピジンの感情トークンとそれらのスコアと、14,000の標準のナイジェリアのピジンのツイートと彼らの感情ラベルが300のVADERレキシコン互換のナイジェリアの感情トークンを提示する。
- 参考スコア(独自算出の注目度): 4.970364068620608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nigerian English adaptation, Pidgin, has evolved over the years through
multi-language code switching, code mixing and linguistic adaptation. While
Pidgin preserves many of the words in the normal English language corpus, both
in spelling and pronunciation, the fundamental meaning of these words have
changed significantly. For example,'ginger' is not a plant but an expression of
motivation and 'tank' is not a container but an expression of gratitude. The
implication is that the current approach of using direct English sentiment
analysis of social media text from Nigeria is sub-optimal, as it will not be
able to capture the semantic variation and contextual evolution in the
contemporary meaning of these words. In practice, while many words in Nigerian
Pidgin adaptation are the same as the standard English, the full English
language based sentiment analysis models are not designed to capture the full
intent of the Nigerian pidgin when used alone or code-mixed. By augmenting
scarce human labelled code-changed text with ample synthetic code-reformatted
text and meaning, we achieve significant improvements in sentiment scoring. Our
research explores how to understand sentiment in an intrasentential code mixing
and switching context where there has been significant word localization.This
work presents a 300 VADER lexicon compatible Nigerian Pidgin sentiment tokens
and their scores and a 14,000 gold standard Nigerian Pidgin tweets and their
sentiments labels.
- Abstract(参考訳): ナイジェリアの英語適応であるpidginは、多言語コード切り換え、コード混合、言語適応を通じて長年にわたって進化してきた。
ピジンはスペルと発音の両方において、通常の英語コーパスの単語の多くを保存しているが、これらの単語の基本的意味は大きく変化している。
例えば「ジンジャー」は植物ではなく動機の表現であり、「タンク」は容器ではなく感謝の表現である。
ナイジェリアのソーシャルメディアテキストの英語直接感情分析の現在のアプローチは、これらの単語の現代的意味における意味的変化と文脈的進化を捉えることができないため、準最適である。
実際には、ナイジェリアのピジン適応における多くの単語は標準英語と同じであるが、完全な英語ベースの感情分析モデルは、単独またはコードミキシングされた場合にナイジェリアのピジンの完全な意図を捉えるように設計されていない。
人間のラベル付きコード変更テキストに大量の合成コード書式テキストと意味を付加することにより,感情スコアリングの大幅な改善を実現する。
この研究は、ナイジェリアのピジンの感情トークンとスコアに適合する300のVADERレキシコンと、14,000の標準のナイジェリアのピジンのツイートとその感情ラベルを提示する。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - NollySenti: Leveraging Transfer Learning and Machine Translation for
Nigerian Movie Sentiment Classification [10.18858070640917]
アフリカには2000以上の先住民族の言語があるが、データセットが不足しているため、NLPの研究では不足している。
私たちは、ナイジェリアで広く話されている5つの言語(英語、ハウサ語、イグボ語、ナイジェリア・ピジン語、ヨルバ語)のノリーウッド映画レビューに基づいて、新しいデータセット、NollySentiを作成しました。
論文 参考訳(メタデータ) (2023-05-18T13:38:36Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - Contextualized Word Embeddings Encode Aspects of Human-Like Word Sense
Knowledge [0.0]
NLPの最近の進歩、特に文脈的単語埋め込みは、英語の単語感覚間の人間的な区別を捉えているかどうかを考察する。
BERT埋め込み空間における感覚間の距離と,感覚間の関連性に関する被験者の判断が相関していることが判明した。
本研究は,意味の連続空間表現の有用性を示唆するものである。
論文 参考訳(メタデータ) (2020-10-25T07:56:52Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - ULD@NUIG at SemEval-2020 Task 9: Generative Morphemes with an Attention
Model for Sentiment Analysis in Code-Mixed Text [1.4926515182392508]
本稿では,SemEval 2020 Task 9 SentiMixに寄与したGenMAモデル感情分析システムについて述べる。
このシステムは、単語レベルの言語タグを使わずに、与えられた英語とヒンディー語を混合したツイートの感情を予測することを目的としている。
論文 参考訳(メタデータ) (2020-07-27T23:58:54Z) - It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations [68.16751625956243]
完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。
我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
論文 参考訳(メタデータ) (2020-05-09T04:01:43Z) - Mind Your Inflections! Improving NLP for Non-Standard Englishes with
Base-Inflection Encoding [44.356771106881006]
インフレクションの変化は、コロキアル・シンガポール英語やアフリカ・アメリカン・バーナキュラー英語のような世界英語の一般的な特徴である。
本研究では,英語の文章をベースに還元してトークン化するためのベース・インフレクション形式 (BITE) を提案する。
符号化により、一般的なデータ駆動型サブワードトークン化器の語彙効率が向上することを示す。
論文 参考訳(メタデータ) (2020-04-30T15:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。