論文の概要: HausaMovieReview: A Benchmark Dataset for Sentiment Analysis in Low-Resource African Language
- arxiv url: http://arxiv.org/abs/2509.16256v1
- Date: Wed, 17 Sep 2025 22:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.704031
- Title: HausaMovieReview: A Benchmark Dataset for Sentiment Analysis in Low-Resource African Language
- Title(参考訳): HausaMovieReview: 低リソースのアフリカ言語における知覚分析のためのベンチマークデータセット
- Authors: Asiya Ibrahim Zanga, Salisu Mamman Abdulrahman, Abubakar Ado, Abdulkadir Abubakar Bichi, Lukman Aliyu Jibril, Abdulmajid Babangida Umar, Alhassan Adamu, Shamsuddeen Hassan Muhammad, Bashir Salisu Abubakar,
- Abstract要約: 本稿では,Hausaにおける5000のYouTubeコメントとコードスイッチによる英語を含む新しいベンチマークデータセットを提案する。
このデータセットを用いて、古典モデルと微調整変換器モデルの比較分析を行う。
精度が89.72%、F1スコアが89.60%のDecision Tree分類器は、ディープラーニングモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 1.3465808629549525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Natural Language Processing (NLP) tools for low-resource languages is critically hindered by the scarcity of annotated datasets. This paper addresses this fundamental challenge by introducing HausaMovieReview, a novel benchmark dataset comprising 5,000 YouTube comments in Hausa and code-switched English. The dataset was meticulously annotated by three independent annotators, demonstrating a robust agreement with a Fleiss' Kappa score of 0.85 between annotators. We used this dataset to conduct a comparative analysis of classical models (Logistic Regression, Decision Tree, K-Nearest Neighbors) and fine-tuned transformer models (BERT and RoBERTa). Our results reveal a key finding: the Decision Tree classifier, with an accuracy and F1-score 89.72% and 89.60% respectively, significantly outperformed the deep learning models. Our findings also provide a robust baseline, demonstrating that effective feature engineering can enable classical models to achieve state-of-the-art performance in low-resource contexts, thereby laying a solid foundation for future research. Keywords: Hausa, Kannywood, Low-Resource Languages, NLP, Sentiment Analysis
- Abstract(参考訳): 低リソース言語のための自然言語処理(NLP)ツールの開発は、注釈付きデータセットの不足によって著しく妨げられている。
本稿では、Hausaで5,000のYouTubeコメントとコード変更英語を含む新しいベンチマークデータセットであるHausaMovieReviewを導入することで、この根本的な課題に対処する。
このデータセットは、3つの独立したアノテータによって慎重に注釈付けされ、Fleiss' Kappaスコアの0.85との堅牢な一致を示した。
このデータセットを用いて、古典モデル(ロジスティック回帰、決定木、K-Nearest Neighbors)と微調整トランスフォーマーモデル(BERT、RoBERTa)の比較分析を行った。
精度が89.72%、F1スコアが89.60%のDecision Tree分類器は、ディープラーニングモデルよりも大幅に優れていた。
提案手法は,従来のモデルが低リソース環境下での最先端性能を実現することを可能にし,将来的な研究の基盤となることを実証する。
キーワード: Hausa, Kannywood, Low-Resource Languages, NLP, Sentiment Analysis
関連論文リスト
- Overcoming Low-Resource Barriers in Tulu: Neural Models and Corpus Creation for OffensiveLanguage Identification [0.5587293092389789]
本研究では,コードミキシングされたTuluソーシャルメディアコンテンツにおけるOffensive Language Identificationのための最初のベンチマークデータセットを提案する。
我々は,GRU,LSTM,BiGRU,BiLSTM,CNN,注目に基づく変種など,一連のディープラーニングモデルを評価する。
自己注意型BiGRUモデルは82%の精度と0.81マクロF1スコアで最高の性能を達成する。
論文 参考訳(メタデータ) (2025-08-15T02:34:22Z) - Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis [0.0]
ベンガル語はNLP研究においてあまり表現されていない言語である。
ベンガルのNLP性能を阻害する課題を系統的に検討する。
ベンガル語では英語と比較して一貫した性能差がみられた。
論文 参考訳(メタデータ) (2025-07-31T05:16:43Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Empirical evaluation of shallow and deep learning classifiers for Arabic
sentiment analysis [1.1172382217477126]
本研究は、アラビア語レビューの感情分析のためのディープラーニングモデルの性能を詳細に比較したものである。
この研究で使用されるデータセットは、アラビア語のホテルと本レビューデータセットである。
その結果,2次・複数ラベル分類では深層学習が浅層学習より優れており,文献で報告された同様の研究結果とは対照的であった。
論文 参考訳(メタデータ) (2021-12-01T14:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。