論文の概要: HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource
TweetData for Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2304.13634v1
- Date: Wed, 26 Apr 2023 15:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 13:42:37.880438
- Title: HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource
TweetData for Sentiment Analysis
- Title(参考訳): HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource TweetData for Sentiment Analysis
- Authors: Saheed Abdullahi Salahudeen, Falalu Ibrahim Lawan, Ahmad Mustapha
Wali, Amina Abubakar Imam, Aliyu Rabiu Shuaibu, Aliyu Yusuf, Nur Bala Rabiu,
Musa Bello, Shamsuddeen Umaru Adamu, Saminu Mohammad Aliyu, Murja Sani
Gadanya, Sanah Abdullahi Muaz, Mahmoud Said Ahmad, Abdulkadir Abdullahi,
Abdulmalik Yusuf Jamoh
- Abstract要約: Twitter データセットを用いた低リソースアフリカ言語に対する感情分析の共有タスクである SemEval-2023 Task 12 について述べる。
我々のゴールは、Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (アラビア語-camelbert)、Multilingual-BERT (mBERT)、BERTモデルを用いて、14のアフリカの言語に対する感情分析を行うことである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present the findings of SemEval-2023 Task 12, a shared task on sentiment
analysis for low-resource African languages using Twitter dataset. The task
featured three subtasks; subtask A is monolingual sentiment classification with
12 tracks which are all monolingual languages, subtask B is multilingual
sentiment classification using the tracks in subtask A and subtask C is a
zero-shot sentiment classification. We present the results and findings of
subtask A, subtask B and subtask C. We also release the code on github. Our
goal is to leverage low-resource tweet data using pre-trained Afro-xlmr-large,
AfriBERTa-Large, Bert-base-arabic-camelbert-da-sentiment (Arabic-camelbert),
Multilingual-BERT (mBERT) and BERT models for sentiment analysis of 14 African
languages. The datasets for these subtasks consists of a gold standard
multi-class labeled Twitter datasets from these languages. Our results
demonstrate that Afro-xlmr-large model performed better compared to the other
models in most of the languages datasets. Similarly, Nigerian languages: Hausa,
Igbo, and Yoruba achieved better performance compared to other languages and
this can be attributed to the higher volume of data present in the languages.
- Abstract(参考訳): Twitter データセットを用いた低リソースアフリカ言語に対する感情分析の共有タスクである SemEval-2023 Task 12 について述べる。
サブタスクaは12のトラックからなる単言語感情分類であり、サブタスクbはサブタスクaのトラックを使用して多言語感情分類を行い、サブタスクcはゼロショット感情分類である。
サブタスクA,サブタスクB,サブタスクCの結果と結果を示すとともに,github上でもコードを公開している。
我々のゴールは、Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment (アラビア語-camelbert)、Multilingual-BERT (mBERT)、BERTモデルを用いて、14のアフリカの言語に対する感情分析を行うことである。
これらのサブタスクのデータセットは、これらの言語からのゴールド標準のマルチクラスラベル付きtwitterデータセットで構成されている。
その結果,afro-xlmr-largeモデルの方が,ほとんどの言語データセットの他のモデルと比較して優れた性能を示した。
同様に、ナイジェリアの言語であるHausa、Igbo、Yorubaは、他の言語と比較してパフォーマンスが良く、これは、言語に存在するデータ量の増加によるものである。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Izindaba-Tindzaba: Machine learning news categorisation for Long and
Short Text for isiZulu and Siswati [1.666378501554705]
南アフリカの言語は低資源言語に分類される。
この作業では、isiZuluとSiswatiのネイティブ言語用の注釈付きニュースデータセットの作成に重点が置かれた。
論文 参考訳(メタデータ) (2023-06-12T21:02:12Z) - Cross-Lingual Knowledge Distillation for Answer Sentence Selection in
Low-Resource Languages [90.41827664700847]
低リソース言語のためのAS2モデルの学習方法として、英語の強力なAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。
提案手法を評価するために,1)Xtr-WikiQA,(9言語用ウィキQAデータセット,2)TyDi-AS2,8言語にまたがる70万以上の質問を持つ多言語AS2データセットを紹介する。
論文 参考訳(メタデータ) (2023-05-25T17:56:04Z) - DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment
classification in low-resource languages [0.0]
本研究では,事前学習中に見つからない言語における感情分析の資源として,多言語大言語モデルをいかに活用できるかを示す。
言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。
最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。
論文 参考訳(メタデータ) (2023-04-27T13:51:18Z) - Masakhane-Afrisenti at SemEval-2023 Task 12: Sentiment Analysis using
Afro-centric Language Models and Adapters for Low-resource African Languages [0.0]
この課題は、アフリカの12言語に対する単言語感情分類(サブタスクA)、多言語感情分類(サブタスクB)、ゼロショット感情分類(タスクC)の実施を目的とする。
その結果, 事前学習したアフロ中心言語モデルを用いることで, 低資源アフリカ言語の性能が向上することが示唆された。
また,ゼロショットタスク用のアダプタを用いた実験を行った結果,限られたリソースしか持たないアダプタを用いて,有望な結果が得られることが示唆された。
論文 参考訳(メタデータ) (2023-04-13T12:54:29Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。