論文の概要: Sentiment Classification in Swahili Language Using Multilingual BERT
- arxiv url: http://arxiv.org/abs/2104.09006v1
- Date: Mon, 19 Apr 2021 01:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:04:29.517484
- Title: Sentiment Classification in Swahili Language Using Multilingual BERT
- Title(参考訳): 多言語BERTを用いたスワヒリ語の感性分類
- Authors: Gati L. Martin, Medard E. Mswahili, Young-Seob Jeong
- Abstract要約: 本研究は、現在の最新モデルである多言語BERTを用いて、スワヒリデータセットの感情分類を行う。
このデータは、異なるソーシャルメディアプラットフォームとisear emotionデータセットで8.2kのレビューとコメントを抽出、注釈付けすることで作成された。
モデルは微調整され、最高の精度は87.59%に達した。
- 参考スコア(独自算出の注目度): 0.04297070083645048
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The evolution of the Internet has increased the amount of information that is
expressed by people on different platforms. This information can be product
reviews, discussions on forums, or social media platforms. Accessibility of
these opinions and peoples feelings open the door to opinion mining and
sentiment analysis. As language and speech technologies become more advanced,
many languages have been used and the best models have been obtained. However,
due to linguistic diversity and lack of datasets, African languages have been
left behind. In this study, by using the current state-of-the-art model,
multilingual BERT, we perform sentiment classification on Swahili datasets. The
data was created by extracting and annotating 8.2k reviews and comments on
different social media platforms and the ISEAR emotion dataset. The data were
classified as either positive or negative. The model was fine-tuned and achieve
the best accuracy of 87.59%.
- Abstract(参考訳): インターネットの進化は、異なるプラットフォーム上の人々が表現する情報の量を増やしました。
この情報は、製品レビュー、フォーラムでの議論、ソーシャルメディアプラットフォームなどである。
これらの意見と人々の感情のアクセシビリティは、意見マイニングと感情分析の扉を開く。
言語技術や音声技術が進歩するにつれて、多くの言語が使われ、最良のモデルが得られた。
しかし、言語的な多様性とデータセットの欠如により、アフリカ語は残された。
本研究では,現在の最先端モデルである多言語BERTを用いて,スワヒリデータセットの感情分類を行う。
このデータは、異なるソーシャルメディアプラットフォームとisear emotionデータセットで8.2kのレビューとコメントを抽出、注釈付けすることで作成された。
データは正か負のどちらかに分類された。
モデルは微調整され、87.59%の精度を達成した。
関連論文リスト
- From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets [10.264294331399434]
ヘイトスピーチデータセットは伝統的に言語によって開発されてきた。
HSデータセットにおける文化バイアスを,言語と地理の2つの関係する文化的プロキシを利用して評価する。
英語、アラビア語、スペイン語のHSデータセットは、地理的に文化的に強い偏見を示す。
論文 参考訳(メタデータ) (2024-04-27T12:10:10Z) - Ensemble Language Models for Multilingual Sentiment Analysis [0.0]
SemEval-17のツイートテキストとアラビアセンティメントのつぶやきデータセットの感情分析について検討する。
その結果,単言語モデルでは性能が優れ,アンサンブルモデルではベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-03-10T01:39:10Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Do All Languages Cost the Same? Tokenization in the Era of Commercial
Language Models [68.29126169579132]
APIベンダは、使用量に基づいてユーザを課金する。具体的には、基盤となる言語モデルによって処理されたトークンの数や生成されるトークンの数に基づいて。
しかし、トークンを構成するのは、異なる言語で同じ情報を伝達するのに必要なトークンの数に大きなばらつきに依存するトレーニングデータとモデルである。
我々は, OpenAI の言語モデル API のコストと有用性について,22言語で多言語ベンチマークを行った。
論文 参考訳(メタデータ) (2023-05-23T05:46:45Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文 参考訳(メタデータ) (2022-04-17T20:23:04Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language [2.9926023796813728]
本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
論文 参考訳(メタデータ) (2021-10-18T15:24:32Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。