論文の概要: Where Are We? Evaluating LLM Performance on African Languages
- arxiv url: http://arxiv.org/abs/2502.19582v1
- Date: Wed, 26 Feb 2025 21:49:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:20.636302
- Title: Where Are We? Evaluating LLM Performance on African Languages
- Title(参考訳): 私たちはどこにいるのか? アフリカの言語におけるLLMのパフォーマンス評価
- Authors: Ife Adebara, Hawau Olamide Toyin, Nahom Tesfu Ghebremichael, AbdelRahim Elmadany, Muhammad Abdul-Mageed,
- Abstract要約: アフリカにおける豊かな言語遺産は、NLPでは残っていない。
本稿では,アフリカにおける言語景観に関する理論的知見と,サハラ語を用いた経験的評価を統合する。
- 参考スコア(独自算出の注目度): 16.206469767073155
- License:
- Abstract: Africa's rich linguistic heritage remains underrepresented in NLP, largely due to historical policies that favor foreign languages and create significant data inequities. In this paper, we integrate theoretical insights on Africa's language landscape with an empirical evaluation using Sahara - a comprehensive benchmark curated from large-scale, publicly accessible datasets capturing the continent's linguistic diversity. By systematically assessing the performance of leading large language models (LLMs) on Sahara, we demonstrate how policy-induced data variations directly impact model effectiveness across African languages. Our findings reveal that while a few languages perform reasonably well, many Indigenous languages remain marginalized due to sparse data. Leveraging these insights, we offer actionable recommendations for policy reforms and inclusive data practices. Overall, our work underscores the urgent need for a dual approach - combining theoretical understanding with empirical evaluation - to foster linguistic diversity in AI for African communities.
- Abstract(参考訳): アフリカの豊かな言語遺産は、主に外国語を好んで、重要なデータ不平等を生み出す歴史的な政策のために、NLPでは表現されていない。
本稿では,アフリカにおける言語景観に関する理論的知見を,サハラを用いた経験的評価と統合する。
サハラにおける主要な大規模言語モデル(LLM)の性能を体系的に評価することにより、政策によって引き起こされるデータの変化が、アフリカ諸言語におけるモデルの有効性にどのように影響するかを実証する。
これらの結果から,いくつかの言語が合理的に機能するのに対し,多くのインディネイティブ言語はスパースデータにより疎化され続けていることが明らかとなった。
これらの洞察を活用することで、政策改革や包括的データプラクティスに対して実行可能なレコメンデーションを提供します。
全体として、アフリカのコミュニティにおけるAIにおける言語多様性を促進するために、理論的理解と経験的評価を組み合わせるという2つのアプローチが緊急に必要であることを示している。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは28の言語で感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - AfriMTE and AfriCOMET: Enhancing COMET to Embrace Under-resourced African Languages [33.05774949324384]
13のアフリカ言語を対象とした誤り検出と直接評価(DA)のためのMQMガイドラインを簡素化し,高品質な人体評価データを作成する。
AfriCOMET: AfriCOMET: アフリカの言語に対するCOMET評価指標の開発も行っている。
論文 参考訳(メタデータ) (2023-11-16T11:52:52Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - From Local to Global: Navigating Linguistic Diversity in the African
Context [0.0]
その焦点は、アフリカ大陸の言語多様性と多様性に関連するNLPの重大な問題に焦点を当てている。
我々の修正されたアプローチは、アフリカの地方方言を扱う際の課題について、有望な分析を提供する。
論文 参考訳(メタデータ) (2023-05-02T13:57:44Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。