論文の概要: The State of Large Language Models for African Languages: Progress and Challenges
- arxiv url: http://arxiv.org/abs/2506.02280v1
- Date: Mon, 02 Jun 2025 21:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.095108
- Title: The State of Large Language Models for African Languages: Progress and Challenges
- Title(参考訳): アフリカ言語における大規模言語モデルの現状と課題
- Authors: Kedir Yassin Hussen, Walelign Tewabe Sewunetie, Abinew Ali Ayele, Sukairaj Hafiz Imam, Shamsuddeen Hassan Muhammad, Seid Muhie Yimam,
- Abstract要約: 本稿では,6つの大言語モデル (LLM) ,8つの小言語モデル (SLM) および6つの特殊SLM (SSLM) のアフリカ言語カバレッジを比較検討する。
評価対象は、言語カバレッジ、トレーニングセット、技術的な制限、スクリプトの問題、言語モデリングのロードマップなどだ。
- 参考スコア(独自算出の注目度): 4.065633096286487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are transforming Natural Language Processing (NLP), but their benefits are largely absent for Africa's 2,000 low-resource languages. This paper comparatively analyzes African language coverage across six LLMs, eight Small Language Models (SLMs), and six Specialized SLMs (SSLMs). The evaluation covers language coverage, training sets, technical limitations, script problems, and language modelling roadmaps. The work identifies 42 supported African languages and 23 available public data sets, and it shows a big gap where four languages (Amharic, Swahili, Afrikaans, and Malagasy) are always treated while there is over 98\% of unsupported African languages. Moreover, the review shows that just Latin, Arabic, and Ge'ez scripts are identified while 20 active scripts are neglected. Some of the primary challenges are lack of data, tokenization biases, computational costs being very high, and evaluation issues. These issues demand language standardization, corpus development by the community, and effective adaptation methods for African languages.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理 (NLP) を変換しているが、アフリカの2000の低リソース言語にはその利点はほとんどない。
本稿では,6つのLSM,8つの小言語モデル (SLM) および6つの特殊SLM (SSLM) のアフリカ言語カバレッジを比較分析する。
評価対象は、言語カバレッジ、トレーニングセット、技術的な制限、スクリプトの問題、言語モデリングのロードマップなどだ。
この研究は42のアフリカの言語と23の公開データセットを識別し、4つの言語(アムハラ語、スワヒリ語、アフリカーンス語、マラガシ語)が常に扱われる大きなギャップを示している。
さらに、このレビューでは、ラテン文字、アラビア文字、ゲエズ文字のみが特定され、20のアクティブスクリプトが無視されている。
主な課題はデータの欠如、トークン化バイアス、計算コストが非常に高いこと、評価の問題である。
これらの問題は、言語の標準化、コミュニティによるコーパス開発、アフリカの言語への効果的な適応方法を要求する。
関連論文リスト
- Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - How Good are Commercial Large Language Models on African Languages? [0.012691047660244334]
本研究では,8つのアフリカの言語を対象とした2つのタスク(機械翻訳とテキスト分類)における商業的大規模言語モデルの予備的分析を行う。
この結果から, 商業言語モデルがアフリカ語で低水準のパフォーマンスを生んでいることが示唆された。
一般論として,アフリカの言語が商業的な大規模言語モデルでよく表現されていることを保証するために,我々の研究成果はコール・ツー・アクションとして提示される。
論文 参考訳(メタデータ) (2023-05-11T02:29:53Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文 参考訳(メタデータ) (2022-04-17T20:23:04Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。