論文の概要: yosm: A new yoruba sentiment corpus for movie reviews
- arxiv url: http://arxiv.org/abs/2204.09711v1
- Date: Wed, 20 Apr 2022 18:00:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-23 05:41:26.159764
- Title: yosm: A new yoruba sentiment corpus for movie reviews
- Title(参考訳): yosm:映画レビューのための新しいヨルバ感情コーパス
- Authors: Iyanuoluwa Shode, David Ifeoluwa Adelani, and Anna Feldman
- Abstract要約: ナイジェリア映画レビューにおける感情分析について考察する。
データにはIMDB、Rotten Tomatoes、Realboxd、Cinemapointer、Nollyratedなど1500本の映画レビューが含まれている。
我々は、mBERTやAfriBERTaといった最先端の事前訓練言語モデルを用いて、感情分類モデルを開発する。
- 参考スコア(独自算出の注目度): 2.3513645401551337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A movie that is thoroughly enjoyed and recommended by an individual might be
hated by another. One characteristic of humans is the ability to have feelings
which could be positive or negative. To automatically classify and study human
feelings, an aspect of natural language processing, sentiment analysis and
opinion mining were designed to understand human feelings regarding several
issues which could affect a product, a social media platforms, government, or
societal discussions or even movies. Several works on sentiment analysis have
been done on high resource languages while low resources languages like Yoruba
have been sidelined. Due to the scarcity of datasets and linguistic
architectures that will suit low resource languages, African languages "low
resource languages" have been ignored and not fully explored. For this reason,
our attention is placed on Yoruba to explore sentiment analysis on reviews of
Nigerian movies. The data comprised 1500 movie reviews that were sourced from
IMDB, Rotten Tomatoes, Letterboxd, Cinemapointer and Nollyrated. We develop
sentiment classification models using the state-of-the-art pre-trained language
models like mBERT and AfriBERTa to classify the movie reviews.
- Abstract(参考訳): 個人によって徹底的に楽しまれ、推奨される映画は、他の人に嫌われるかもしれない。
人間の特徴の1つは、肯定的あるいは否定的な感情を持つ能力である。
人間の感情を自動的に分類し研究するために、自然言語処理、感情分析、意見マイニングの側面は、製品、ソーシャルメディアプラットフォーム、政府、社会的議論、さらには映画に影響を及ぼす可能性のあるいくつかの問題に関する人間の感情を理解するように設計された。
感情分析に関するいくつかの研究は高リソース言語で行われており、yorubaのような低リソース言語は横行している。
低リソース言語に適合するデータセットや言語アーキテクチャの不足のため、アフリカの言語"低リソース言語"は無視され、完全には検討されていない。
そのため、ナイジェリア映画の評価に関する感情分析を探究するため、ヨルバに注目が集まっている。
データにはIMDB、Rotten Tomatoes、Realboxd、Cinemapointer、Nollyratedなど1500本の映画レビューが含まれている。
我々は、mBERTやAfriBERTaといった最先端の事前学習言語モデルを用いて感情分類モデルを構築し、映画レビューを分類する。
関連論文リスト
- SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - AlbMoRe: A Corpus of Movie Reviews for Sentiment Analysis in Albanian [0.0]
AlbMoRe(アルブモレ)は、アルバニアの映画レビュー800のコーパス。
各テキストは肯定的あるいは否定的にラベル付けされ、感情分析研究に使用することができる。
論文 参考訳(メタデータ) (2023-06-14T14:21:55Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - NollySenti: Leveraging Transfer Learning and Machine Translation for
Nigerian Movie Sentiment Classification [10.18858070640917]
アフリカには2000以上の先住民族の言語があるが、データセットが不足しているため、NLPの研究では不足している。
私たちは、ナイジェリアで広く話されている5つの言語(英語、ハウサ語、イグボ語、ナイジェリア・ピジン語、ヨルバ語)のノリーウッド映画レビューに基づいて、新しいデータセット、NollySentiを作成しました。
論文 参考訳(メタデータ) (2023-05-18T13:38:36Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Sentiment Classification in Swahili Language Using Multilingual BERT [0.04297070083645048]
本研究は、現在の最新モデルである多言語BERTを用いて、スワヒリデータセットの感情分類を行う。
このデータは、異なるソーシャルメディアプラットフォームとisear emotionデータセットで8.2kのレビューとコメントを抽出、注釈付けすることで作成された。
モデルは微調整され、最高の精度は87.59%に達した。
論文 参考訳(メタデータ) (2021-04-19T01:47:00Z) - Multilingual, Temporal and Sentimental Distant-Reading of City Events [0.0]
この分析は、祭りの期間中に収集されたベルリンのツイートに遠くから読むことを目的としている。
我々は多言語埋め込みによる深層感情ネットワークを訓練した。
トレーニングされたアルゴリズムは0.78のテストスコアを持ち、フェスティバル中にBerlinaleハッシュタグでツイートに適用される。
論文 参考訳(メタデータ) (2021-01-04T10:57:11Z) - Corpus Creation for Sentiment Analysis in Code-Mixed Tamil-English Text [0.9235531183915556]
YouTubeのコメント投稿15,744件を含む,コード変更による感情注釈付きコーパスを作成します。
本稿では,コーパスの作成と極性を割り当てるプロセスについて述べる。
本稿では,このコーパスでトレーニングした感情分析の結果をベンチマークとして,アノテーション間の合意を提示する。
論文 参考訳(メタデータ) (2020-05-30T07:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。