Fugu-MT 論文翻訳(概要): AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages

論文の概要: AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages

arxiv url: http://arxiv.org/abs/2302.08956v3
Date: Mon, 24 Apr 2023 13:57:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 20:57:42.565676
Title: AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages
Title（参考訳）: AfriSenti: アフリカの言語に対するTwitterの感情分析ベンチマーク
Authors: Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, Nedjma Ousidhoum, David Ifeoluwa Adelani, Seid Muhie Yimam, Ibrahim Sa'id Ahmad, Meriem Beloucif, Saif M. Mohammad, Sebastian Ruder, Oumaima Hourrane, Pavel Brazdil, Felermino D\'ario M\'ario Ant\'onio Ali, Davis David, Salomey Osei, Bello Shehu Bello, Falalu Ibrahim, Tajuddeen Gwadabe, Samuel Rutunda, Tadesse Belay, Wendimu Baye Messelle, Hailu Beshada Balcha, Sisay Adugna Chala, Hagos Tesfahun Gebremichael, Bernard Opoku, Steven Arthur
Abstract要約: AfriSentiは14のアフリカの言語で110,000以上のツイートの14の感情データセットで構成されている。データは、最初のAfro中心のSemEval共有タスクであるSemEval 2023 Task 12で使用される。
参考スコア（独自算出の注目度）: 31.34461273692637
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Africa is home to over 2000 languages from over six language families and has the highest linguistic diversity among all continents. This includes 75 languages with at least one million speakers each. Yet, there is little NLP research conducted on African languages. Crucial in enabling such research is the availability of high-quality annotated datasets. In this paper, we introduce AfriSenti, which consists of 14 sentiment datasets of 110,000+ tweets in 14 African languages (Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\'a) from four language families annotated by native speakers. The data is used in SemEval 2023 Task 12, the first Afro-centric SemEval shared task. We describe the data collection methodology, annotation process, and related challenges when curating each of the datasets. We conduct experiments with different sentiment classification baselines and discuss their usefulness. We hope AfriSenti enables new work on under-represented languages. The dataset is available at https://github.com/afrisenti-semeval/afrisent-semeval-2023 and can also be loaded as a huggingface datasets (https://huggingface.co/datasets/shmuhammad/AfriSenti).
Abstract（参考訳）: アフリカには6つの言語族から2000以上の言語があり、全大陸で最も言語多様性が高い。これには75の言語があり、それぞれ100万以上の話者がいる。しかし、アフリカ語に関するNLP研究はほとんど行われていない。このような研究を可能にする上で重要なのは、高品質な注釈付きデータセットの可用性だ。本稿では,14のアフリカ語(アムハラ語,アルジェリア語,ハウサ語,イボ語,キニャルワンダ語,モロッコ語,モザンビーク語,ポルトガル語,ナイジェリア・ピジン語,オロモ語,スワヒリ語,ティグリニャ語,twi,xitsonga,yor\`ub\'a)における110,000以上のツイートの14の感情データセットからなるafrisentiを紹介する。データは、最初のAfro中心のSemEval共有タスクであるSemEval 2023 Task 12で使用される。データ収集手法、アノテーションプロセス、および各データセットをキュレートする際の関連する課題について述べる。感情分類基準の異なる実験を行い,その有用性について考察する。 afrisentiが低表現言語で新しい作業を可能にすることを願っています。データセットはhttps://github.com/afrisenti-semeval/afrisent-semeval-2023で利用可能であり、hughingfaceデータセットとしてロードすることもできる(https://huggingface.co/datasets/shmuhammad/afrisenti)。

関連論文リスト

The NaijaVoices Dataset: Cultivating Large-Scale, High-Quality, Culturally-Rich Speech Data for African Languages [10.225163354933372]
5000人以上の話者を持つ1,800時間音声テキストデータセットであるNaijaVoicesデータセットを紹介する。我々は,我々のユニークなデータ収集手法を概説し,その音響的多様性を分析し,微調整実験を通じてその影響を実証する。これらの結果から,ナイジャヴォイセスがアフリカ語における多言語音声処理を進展させる可能性が示唆された。
論文参考訳（メタデータ） (2025-05-26T22:53:48Z)
Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。低リソースのアフリカ言語にLLMを適用する方法について検討する。アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文参考訳（メタデータ） (2025-04-09T02:25:53Z)
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文参考訳（メタデータ） (2024-10-16T16:11:49Z)
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文参考訳（メタデータ） (2024-06-27T22:38:04Z)
AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。 AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文参考訳（メタデータ） (2023-11-14T08:10:14Z)
Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10～40倍増やす。主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文参考訳（メタデータ） (2023-05-22T22:09:41Z)
HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource TweetData for Sentiment Analysis [0.0]
Twitter データセットを用いた低リソースアフリカ言語に対する感情分析の共有タスクである SemEval-2023 Task 12 について述べる。我々のゴールは、Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (アラビア語-camelbert)、Multilingual-BERT (mBERT)、BERTモデルを用いて、14のアフリカの言語に対する感情分析を行うことである。
論文参考訳（メタデータ） (2023-04-26T15:47:50Z)
MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文参考訳（メタデータ） (2022-10-22T08:53:14Z)
\`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文参考訳（メタデータ） (2022-04-17T20:23:04Z)
Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文参考訳（メタデータ） (2022-03-23T03:19:35Z)
NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual Sentiment Analysis [5.048355865260207]
ナイジェリアでもっとも広く話されている4言語に対して、人手によるTwitter感情データセットを初めて導入する。データセットは1言語あたり約30,000の注釈付きツイートで構成されている。私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。
論文参考訳（メタデータ） (2022-01-20T16:28:06Z)
The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。 1億人以上がこの言語を話すと推定されている。言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文参考訳（メタデータ） (2021-02-13T19:34:20Z)
Lanfrica: A Participatory Approach to Documenting Machine Translation Research on African Languages [0.012691047660244334]
アフリカは1500-2000の文書化された言語と多くの未文書または絶滅した言語がある。これにより、MTの研究、モデル、データセットの追跡が困難になる。オンラインプラットフォームは、これらのアフリカの言語の研究、ベンチマーク、データセットへのアクセシビリティを作成するのに役立つ。
論文参考訳（メタデータ） (2020-08-03T18:14:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。