論文の概要: TriLex: A Framework for Multilingual Sentiment Analysis in Low-Resource South African Languages
- arxiv url: http://arxiv.org/abs/2512.02799v1
- Date: Tue, 02 Dec 2025 14:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.915594
- Title: TriLex: A Framework for Multilingual Sentiment Analysis in Low-Resource South African Languages
- Title(参考訳): TriLex: 低リソース南アフリカ言語における多言語感性分析のためのフレームワーク
- Authors: Mike Nkongolo, Hilton Vorster, Josh Warren, Trevor Naick, Deandre Vanmali, Masana Mashapha, Luke Brand, Alyssa Fernandes, Janco Calitz, Sibusiso Makhoba,
- Abstract要約: 低資源のアフリカ諸言語は、感情分析において不足している。
本研究では,コーパスに基づく抽出,クロスリンガルマッピング,RAGによる語彙改善を統一する3段階検索拡張フレームワークTriLexを提案する。
リッチレキシコンを用いて、2つの著名なアフリカの事前訓練言語モデルの性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Low-resource African languages remain underrepresented in sentiment analysis, limiting both lexical coverage and the performance of multilingual Natural Language Processing (NLP) systems. This study proposes TriLex, a three-stage retrieval augmented framework that unifies corpus-based extraction, cross lingual mapping, and retrieval augmented generation (RAG) driven lexical refinement to systematically expand sentiment lexicons for low-resource languages. Using the enriched lexicon, the performance of two prominent African pretrained language models (AfroXLMR and AfriBERTa) is evaluated across multiple case studies. Results demonstrate that AfroXLMR delivers superior performance, achieving F1-scores above 80% for isiXhosa and isiZulu and exhibiting strong cross-lingual stability. Although AfriBERTa lacks pre-training on these target languages, it still achieves reliable F1-scores around 64%, validating its utility in computationally constrained settings. Both models outperform traditional machine learning baselines, and ensemble analyses further enhance precision and robustness. The findings establish TriLex as a scalable and effective framework for multilingual sentiment lexicon expansion and sentiment modeling in low-resource South African languages.
- Abstract(参考訳): 低リソースのアフリカの言語は、感情分析において不足しており、語彙カバレッジと多言語自然言語処理(NLP)システムの性能の両方を制限している。
本研究では,低リソース言語に対する感情辞書を体系的に拡張するために,コーパスベース抽出,クロスランガルマッピング,検索拡張生成(RAG)による語彙改善を行う3段階検索拡張フレームワークであるTriLexを提案する。
AfroXLMR と AfriBERTa の2つの著名なアフリカ事前訓練言語モデル (AfroXLMR と AfriBERTa ) の性能を複数のケーススタディで評価した。
その結果, AfroXLMRは, isiXhosaおよびisiZuluに対して80%以上のF1スコアを達成し, 強い言語間安定性を示した。
AfriBERTaは、これらのターゲット言語で事前トレーニングをしていないが、信頼性の高いF1スコアを約64%達成し、計算制約のある設定でその有用性を検証している。
どちらのモデルも従来の機械学習のベースラインよりも優れており、アンサンブル解析により精度と堅牢性がさらに向上する。
その結果,TriLexは低リソース南アフリカ語における多言語感情辞書拡張と感情モデリングのためのスケーラブルで効果的なフレームワークとして確立された。
関連論文リスト
- Low-Resource Dialect Adaptation of Large Language Models: A French Dialect Case-Study [0.043496401697112684]
タイトなデータと計算予算に基づく方言学習における継続事前学習(CPT)の利用について検討した。
我々は、非常に小さなデータセットを使用してQu'ebecフランス語方言に3つの大きな言語モデルを適用し、それらをCOLEスイートでベンチマークする。
実験では, モデルパラメータの1%以下を更新した名声言語ベンチマークにおいて, 最小回帰によるマイノリティ弁証法の改良を実証した。
論文 参考訳(メタデータ) (2025-10-26T16:49:06Z) - Investigating the Impact of Language-Adaptive Fine-Tuning on Sentiment Analysis in Hausa Language Using AfriBERTa [2.5055584842618175]
感情分析(SA)は、自然言語処理(NLP)において、テキストで表される感情を識別することで重要な役割を担っている。
本研究では, 言語適応ファインチューニング(LAFT)の有効性について検討した。
論文 参考訳(メタデータ) (2025-01-19T11:52:46Z) - A Multilingual Sentiment Lexicon for Low-Resource Language Translation using Large Languages Models and Explainable AI [0.0]
南アフリカとDRCは、ズールー語、セペディ語、アフリカーンス語、フランス語、英語、ツィルバ語などの言語と共に複雑な言語景観を呈している。
この研究はフランス語とツィルバ語用に設計された多言語辞書を開発し、英語、アフリカーンス語、セペディ語、ズールー語への翻訳を含むように拡張された。
総合的なテストコーパスは、感情を予測するためにトレーニングされた機械学習モデルを使用して、翻訳と感情分析タスクをサポートするために作成される。
論文 参考訳(メタデータ) (2024-11-06T23:41:18Z) - Cross-lingual transfer of multilingual models on low resource African Languages [0.20793001310272596]
単一の言語で訓練されたモノリンガルモデルは、ターゲット言語のニュアンスをよりよく捉えることができる。
AfriBERTは微調整後に最高88.3%の言語間精度を達成した。
BiGRUは83.3%の精度で最高のパフォーマンスのニューラルモデルとして登場した。
論文 参考訳(メタデータ) (2024-09-17T08:05:40Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。