論文の概要: AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages
- arxiv url: http://arxiv.org/abs/2302.08956v5
- Date: Sat, 4 Nov 2023 19:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 01:05:20.514139
- Title: AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages
- Title(参考訳): AfriSenti: アフリカの言語に対するTwitterの感情分析ベンチマーク
- Authors: Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele,
Nedjma Ousidhoum, David Ifeoluwa Adelani, Seid Muhie Yimam, Ibrahim Sa'id
Ahmad, Meriem Beloucif, Saif M. Mohammad, Sebastian Ruder, Oumaima Hourrane,
Pavel Brazdil, Felermino D\'ario M\'ario Ant\'onio Ali, Davis David, Salomey
Osei, Bello Shehu Bello, Falalu Ibrahim, Tajuddeen Gwadabe, Samuel Rutunda,
Tadesse Belay, Wendimu Baye Messelle, Hailu Beshada Balcha, Sisay Adugna
Chala, Hagos Tesfahun Gebremichael, Bernard Opoku, Steven Arthur
- Abstract要約: アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
- 参考スコア(独自算出の注目度): 45.88640066767242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Africa is home to over 2,000 languages from more than six language families
and has the highest linguistic diversity among all continents. These include 75
languages with at least one million speakers each. Yet, there is little NLP
research conducted on African languages. Crucial to enabling such research is
the availability of high-quality annotated datasets. In this paper, we
introduce AfriSenti, a sentiment analysis benchmark that contains a total of
>110,000 tweets in 14 African languages (Amharic, Algerian Arabic, Hausa, Igbo,
Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo,
Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\'a) from four language families.
The tweets were annotated by native speakers and used in the AfriSenti-SemEval
shared task (The AfriSenti Shared Task had over 200 participants. See website
at https://afrisenti-semeval.github.io). We describe the data collection
methodology, annotation process, and the challenges we dealt with when curating
each dataset. We further report baseline experiments conducted on the different
datasets and discuss their usefulness.
- Abstract(参考訳): アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
75の言語があり、それぞれ100万人の話者がいる。
しかし、アフリカ語に関するNLP研究はほとんど行われていない。
このような研究を可能にする上で重要なのは、高品質な注釈付きデータセットの提供だ。
本稿では,4つの言語族から,14のアフリカ語(アムハラ語,アルジェリア語,ハウサ語,イグボ語,キニャルワンダ語,モロッコ語,モザンビーク語,ナイジェリア・ピジン語,オロモ語,スワヒリ語,ティグリニャ語,トワイ語,キシトニガ語,ヨルジュブワ語)で合計110,000以上のツイートを含む感情分析ベンチマークであるafrisentiを紹介する。
ツイートはネイティブスピーカーによって注釈付けされ、AfriSenti-SemEval共有タスクで使用された(AfriSenti Shared Taskには200人以上の参加者がいた)。
各データセットのキュレーションにおいて,データ収集の方法論,アノテーションプロセス,対処すべき課題について述べる。
さらに,異なるデータセット上で実施したベースライン実験を報告し,その有用性について考察する。
関連論文リスト
- WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource
TweetData for Sentiment Analysis [0.0]
Twitter データセットを用いた低リソースアフリカ言語に対する感情分析の共有タスクである SemEval-2023 Task 12 について述べる。
我々のゴールは、Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (アラビア語-camelbert)、Multilingual-BERT (mBERT)、BERTモデルを用いて、14のアフリカの言語に対する感情分析を行うことである。
論文 参考訳(メタデータ) (2023-04-26T15:47:50Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文 参考訳(メタデータ) (2022-04-17T20:23:04Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual
Sentiment Analysis [5.048355865260207]
ナイジェリアでもっとも広く話されている4言語に対して、人手によるTwitter感情データセットを初めて導入する。
データセットは1言語あたり約30,000の注釈付きツイートで構成されている。
私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。
論文 参考訳(メタデータ) (2022-01-20T16:28:06Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - Lanfrica: A Participatory Approach to Documenting Machine Translation
Research on African Languages [0.012691047660244334]
アフリカは1500-2000の文書化された言語と多くの未文書または絶滅した言語がある。
これにより、MTの研究、モデル、データセットの追跡が困難になる。
オンラインプラットフォームは、これらのアフリカの言語の研究、ベンチマーク、データセットへのアクセシビリティを作成するのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T18:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。