論文の概要: How good are Large Language Models on African Languages?
- arxiv url: http://arxiv.org/abs/2311.07978v2
- Date: Tue, 30 Apr 2024 16:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 19:37:57.201850
- Title: How good are Large Language Models on African Languages?
- Title(参考訳): アフリカの言語における大規模言語モデルはどの程度優れているか?
- Authors: Jessica Ojo, Kelechi Ogueji, Pontus Stenetorp, David Ifeoluwa Adelani,
- Abstract要約: アフリカの60言語にまたがる6つのタスクにおける4つのポピュラーな大言語モデル(mT0, Aya, LLaMa 2, GPT-4)の分析を行った。
以上の結果から,全てのLLMはアフリカの言語では性能が低いことが示唆され,高リソース言語に比べて性能の差が大きいことが示唆された。
- 参考スコア(独自算出の注目度): 18.660783984850845
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in natural language processing have led to the proliferation of large language models (LLMs). These models have been shown to yield good performance, using in-context learning, even on tasks and languages they are not trained on. However, their performance on African languages is largely understudied relative to high-resource languages. We present an analysis of four popular large language models (mT0, Aya, LLaMa 2, and GPT-4) on six tasks (topic classification, sentiment classification, machine translation, summarization, question answering, and named entity recognition) across 60 African languages, spanning different language families and geographical regions. Our results suggest that all LLMs produce lower performance for African languages, and there is a large gap in performance compared to high-resource languages (such as English) for most tasks. We find that GPT-4 has an average to good performance on classification tasks, yet its performance on generative tasks such as machine translation and summarization is significantly lacking. Surprisingly, we find that mT0 had the best overall performance for cross-lingual QA, better than the state-of-the-art supervised model (i.e. fine-tuned mT5) and GPT-4 on African languages. Similarly, we find the recent Aya model to have comparable result to mT0 in almost all tasks except for topic classification where it outperform mT0. Overall, LLaMa 2 showed the worst performance, which we believe is due to its English and code-centric~(around 98%) pre-training corpus. Our findings confirms that performance on African languages continues to remain a hurdle for the current LLMs, underscoring the need for additional efforts to close this gap.
- Abstract(参考訳): 近年の自然言語処理の進歩は,大規模言語モデル(LLM)の普及につながっている。
これらのモデルは、トレーニングされていないタスクや言語であっても、コンテキスト内学習を使用して、優れたパフォーマンスが得られることが示されている。
しかしながら、アフリカの言語での彼らのパフォーマンスは、高リソース言語と比較して、ほとんど過小評価されていない。
6つの課題(トピック分類, 感情分類, 機械翻訳, 要約, 質問応答, 名前付きエンティティ認識)について, 60言語にまたがる4つの人気言語モデル(mT0, Aya, LLaMa 2, GPT-4)について, 異なる言語族と地理的領域にまたがって分析を行った。
以上の結果から,全てのLLMはアフリカの言語では性能が低いことが示唆され,ほとんどのタスクでは高リソース言語(英語など)に比べて性能の差が大きいことが示唆された。
GPT-4は, 機械翻訳や要約などの生成タスクにおいて, 平均的, 優れた性能を示すが, 性能は著しく低下している。
驚いたことに,mT0は言語間QAにおいて,最先端の教師付きモデル(mT5)やGPT-4よりも優れた性能を示した。
同様に、最近のAyaモデルは、mT0より優れているトピック分類を除いて、ほぼ全てのタスクにおいてmT0に匹敵する結果が得られる。
全体として、LLaMa 2は、英語とコード中心(約98%)の事前トレーニングコーパスのため、最悪のパフォーマンスを示した。
このギャップを埋めるために追加の努力が必要であることを強調し、アフリカ語のパフォーマンスが現在のLLMのハードルであり続けていることを確認した。
関連論文リスト
- One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings [12.507989493130175]
大規模言語モデル (LLM) は自然言語処理 (NLP) に大きな関心を寄せている。
近年の研究では、低リソース言語におけるLLMの限界が強調されている。
英語からバングラ語、ヒンディー語、ウルドゥー語に翻訳することで、感情と憎悪の音声タスクのデータセットを提示する。
論文 参考訳(メタデータ) (2024-08-05T05:09:23Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.260317326787035]
本報告では,16種類の低リソースアフリカ言語を対象とした人文翻訳ベンチマークデータセットであるIrokoBenchについて紹介する。
IrokoBenchを使って10のオープンおよび4つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップが見られ、最高パフォーマンスのオープンモデルであるAya-101は、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの58%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - ChatGPT for Arabic Grammatical Error Correction [5.945320097465418]
大きな言語モデル(LLM)は、人間の指示に従うように微調整され、英語のNLPタスクにおいて重要な機能を示した。
本稿では,アラビア語の豊富な形態が原因で複雑化した課題である,アラビア語 GEC における微調整 LLM の指導能力について検討する。
命令の微調整モデルは,そのサイズによらず,かなり小型の完全微調整モデルに比べて性能が劣ることがわかった。
論文 参考訳(メタデータ) (2023-08-08T18:00:39Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - How Good are Commercial Large Language Models on African Languages? [0.012691047660244334]
本研究では,8つのアフリカの言語を対象とした2つのタスク(機械翻訳とテキスト分類)における商業的大規模言語モデルの予備的分析を行う。
この結果から, 商業言語モデルがアフリカ語で低水準のパフォーマンスを生んでいることが示唆された。
一般論として,アフリカの言語が商業的な大規模言語モデルでよく表現されていることを保証するために,我々の研究成果はコール・ツー・アクションとして提示される。
論文 参考訳(メタデータ) (2023-05-11T02:29:53Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。