論文の概要: NollySenti: Leveraging Transfer Learning and Machine Translation for
Nigerian Movie Sentiment Classification
- arxiv url: http://arxiv.org/abs/2305.10971v1
- Date: Thu, 18 May 2023 13:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 15:08:30.702134
- Title: NollySenti: Leveraging Transfer Learning and Machine Translation for
Nigerian Movie Sentiment Classification
- Title(参考訳): NollySenti:ナイジェリア映画感性分類における転送学習と機械翻訳の活用
- Authors: Iyanuoluwa Shode, David Ifeoluwa Adelani, Jing Peng, Anna Feldman
- Abstract要約: アフリカには2000以上の先住民族の言語があるが、データセットが不足しているため、NLPの研究では不足している。
私たちは、ナイジェリアで広く話されている5つの言語(英語、ハウサ語、イグボ語、ナイジェリア・ピジン語、ヨルバ語)のノリーウッド映画レビューに基づいて、新しいデータセット、NollySentiを作成しました。
- 参考スコア(独自算出の注目度): 3.6417475195085607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Africa has over 2000 indigenous languages but they are under-represented in
NLP research due to lack of datasets. In recent years, there have been progress
in developing labeled corpora for African languages. However, they are often
available in a single domain and may not generalize to other domains. In this
paper, we focus on the task of sentiment classification for cross domain
adaptation. We create a new dataset, NollySenti - based on the Nollywood movie
reviews for five languages widely spoken in Nigeria (English, Hausa, Igbo,
Nigerian-Pidgin, and Yoruba. We provide an extensive empirical evaluation using
classical machine learning methods and pre-trained language models. Leveraging
transfer learning, we compare the performance of cross-domain adaptation from
Twitter domain, and cross-lingual adaptation from English language. Our
evaluation shows that transfer from English in the same target domain leads to
more than 5% improvement in accuracy compared to transfer from Twitter in the
same language. To further mitigate the domain difference, we leverage machine
translation (MT) from English to other Nigerian languages, which leads to a
further improvement of 7% over cross-lingual evaluation. While MT to
low-resource languages are often of low quality, through human evaluation, we
show that most of the translated sentences preserve the sentiment of the
original English reviews.
- Abstract(参考訳): アフリカには2000以上の先住民族言語があるが、データセットの欠如によりnlp研究に過小評価されている。
近年、アフリカの言語のためのラベル付きコーパスの開発が進められている。
しかし、それらは単一のドメインで利用でき、他のドメインに一般化できないことがある。
本稿では,クロスドメイン適応のための感情分類の課題に焦点を当てる。
ナイジェリアで広く話されている5つの言語(英語、ハウサ、igbo、ナイジェリア・ピジン、ヨルバ)のノリウッド映画レビューに基づいて、新しいデータセット、nollysentiを作成しました。
古典的な機械学習手法と事前学習言語モデルを用いた広範な経験的評価を提供する。
転送学習を活用して、Twitterドメインからのクロスドメイン適応のパフォーマンスと、英語からのクロス言語適応を比較した。
評価の結果,同じ対象領域における英語からの転送は,同じ言語でのtwitterからの転送に比べて5%以上精度が向上することがわかった。
ドメイン差を緩和するために、英語から他のナイジェリア語への機械翻訳(MT)を活用し、言語間評価よりも7%向上した。
低リソース言語へのmtは品質が低いことが多いが、人間の評価を通して、翻訳された文の多くは原文のレビューの感情を保っていることを示している。
関連論文リスト
- Defining Boundaries: The Impact of Domain Specification on Cross-Language and Cross-Domain Transfer in Machine Translation [0.44601285466405083]
言語間変換学習はニューラルマシン翻訳(NMT)に有望なソリューションを提供する
本稿では,ドメイン仕様と言語要因が伝達効率に与える影響に焦点を当てる。
ポルトガル語、イタリア語、フランス語、チェコ語、ポーランド語、ギリシャ語など、複数の対象言語を評価します。
論文 参考訳(メタデータ) (2024-08-21T18:28:48Z) - Analysing Cross-Lingual Transfer in Low-Resourced African Named Entity
Recognition [0.10641561702689348]
低リソース言語10言語間の言語間移動学習の特性について検討する。
一つの言語でうまく機能するモデルは、他の言語への一般化を犠牲にして、しばしばそうする。
ソースとターゲットデータセット間で重複するデータの量は、言語間の地理的あるいは遺伝的距離よりも、転送性能の予測器として優れている。
論文 参考訳(メタデータ) (2023-09-11T08:56:47Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Low-Resourced Machine Translation for Senegalese Wolof Language [0.34376560669160383]
リカレントニューラルネットワーク(RNN)に基づく機械翻訳モデルの実験を行った123,000文からなるWolof/Frenchコーパスを並列に提示する。
サブワードデータで訓練されたモデルと、フランス語と英語のペアで訓練されたモデルと、同じ実験条件下で訓練されたフレンチとウーロフのペアで訓練されたモデルとを比較した。
論文 参考訳(メタデータ) (2023-05-01T00:04:19Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文 参考訳(メタデータ) (2022-04-17T20:23:04Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual
Transfer with Multilingual Transformers [62.637055980148816]
言語モデリングの目的によって事前訓練された多言語トランスフォーマーは、NLPの事実上のデフォルト転送パラダイムとなっている。
膨大な多言語変換器による言語間変換は,リソースリーンシナリオや遠方言語では著しく効果が低いことを示す。
論文 参考訳(メタデータ) (2020-05-01T22:04:58Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。