論文の概要: Bridging the Gap: Enhancing LLM Performance for Low-Resource African Languages with New Benchmarks, Fine-Tuning, and Cultural Adjustments
- arxiv url: http://arxiv.org/abs/2412.12417v1
- Date: Mon, 16 Dec 2024 23:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:02:18.248734
- Title: Bridging the Gap: Enhancing LLM Performance for Low-Resource African Languages with New Benchmarks, Fine-Tuning, and Cultural Adjustments
- Title(参考訳): Bridging the Gap: 新たなベンチマーク,ファインチューニング,文化調整を備えた,低リソースのアフリカ言語におけるLLMパフォーマンス向上
- Authors: Tuka Alhanai, Adam Kasumovic, Mohammad Ghassemi, Aven Zitzelberger, Jessica Lundin, Guillaume Chabot-Couture,
- Abstract要約: 本稿では,8つの低リソースアフリカ言語において,約100万の人文翻訳語を新たにベンチマークデータとして生成する。
我々のベンチマークはウィノグランデの翻訳とMMLUの3つのセクション(大学医学、臨床知識、ウイルス学)である。
翻訳されたベンチマークを用いて、英語とアフリカ語におけるSOTA(State-of-the-art LLM)のパフォーマンスギャップについて報告する。
- 参考スコア(独自算出の注目度): 0.9214083577876088
- License:
- Abstract: Large Language Models (LLMs) have shown remarkable performance across various tasks, yet significant disparities remain for non-English languages, and especially native African languages. This paper addresses these disparities by creating approximately 1 million human-translated words of new benchmark data in 8 low-resource African languages, covering a population of over 160 million speakers of: Amharic, Bambara, Igbo, Sepedi (Northern Sotho), Shona, Sesotho (Southern Sotho), Setswana, and Tsonga. Our benchmarks are translations of Winogrande and three sections of MMLU: college medicine, clinical knowledge, and virology. Using the translated benchmarks, we report previously unknown performance gaps between state-of-the-art (SOTA) LLMs in English and African languages. Finally, using results from over 400 fine-tuned models, we explore several methods to reduce the LLM performance gap, including high-quality dataset fine-tuning (using an LLM-as-an-Annotator), cross-lingual transfer, and cultural appropriateness adjustments. Key findings include average mono-lingual improvements of 5.6% with fine-tuning (with 5.4% average mono-lingual improvements when using high-quality data over low-quality data), 2.9% average gains from cross-lingual transfer, and a 3.0% out-of-the-box performance boost on culturally appropriate questions. The publicly available benchmarks, translations, and code from this study support further research and development aimed at creating more inclusive and effective language technologies.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクで顕著なパフォーマンスを示しているが、英語以外の言語、特にネイティブアフリカ言語では大きな差異が残っている。
本稿は,Amharic, Bambara, Igbo, Sepedi (Northern Sotho), Shona, Sesotho (Southern Sotho), Seswana, Tsongaの6千万以上の話者を対象に,8つの低リソースのアフリカの言語で,100万以上の人文変換された新しいベンチマークデータを作成した。
我々のベンチマークはウィノグランデの翻訳とMMLUの3つのセクション(大学医学、臨床知識、ウイルス学)である。
翻訳されたベンチマークを用いて、英語とアフリカ語におけるSOTA (State-of-the-art) LLMのパフォーマンスギャップについて報告する。
最後に,400以上の微調整モデルから得られた結果を用いて,高品質なデータセットの微調整(LLM-as-an-Annotatorを用いた),言語間移動,文化的適合度調整など,LCMのパフォーマンスギャップを低減する方法を検討した。
主な発見は、細調整(低品質データよりも高品質のデータを使用する場合の平均モノリンガル改善率5.4%)による平均モノリンガル改善率5.6%、クロスリンガル転送による平均ゲイン2.9%、文化的に適切な質問に対するパフォーマンス3.0%、などである。
この研究から得られるベンチマーク、翻訳、コードは、より包括的で効果的な言語技術の創出を目的としたさらなる研究と開発を支援する。
関連論文リスト
- Transcending Language Boundaries: Harnessing LLMs for Low-Resource Language Translation [38.81102126876936]
本稿では,キーワードに着目して,低リソース言語における翻訳品質を向上させる新しい検索手法を提案する。
本手法の有効性を評価するため,北米の絶滅危惧種であるチェロキー語,アジアにおける歴史的・文化的に重要な言語であるチベット語,話者がほとんどいない満州語という3つの低資源言語に英語から翻訳した実験を行った。
GPT-4oとLLaMA 3.1 405Bのゼロショット性能と比較すると、低リソース言語への変換において、これらのモデルが直面する重要な課題が浮き彫りになっている。
論文 参考訳(メタデータ) (2024-11-18T05:41:27Z) - Cultural Fidelity in Large-Language Models: An Evaluation of Online Language Resources as a Driver of Model Performance in Value Representation [0.0]
GPT-4oが国の社会的価値を反映する能力は、その言語でデジタルリソースが利用可能であることと相関していることを示す。
低リソース言語、特にグローバル・サウスで顕著なWeakerのパフォーマンスは、デジタル・ディビジョンを悪化させる可能性がある。
論文 参考訳(メタデータ) (2024-10-14T13:33:00Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.260317326787035]
本報告では,16種類の低リソースアフリカ言語を対象とした人文翻訳ベンチマークデータセットであるIrokoBenchについて紹介する。
IrokoBenchを使って10のオープンおよび4つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップが見られ、最高パフォーマンスのオープンモデルであるAya-101は、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの58%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - How good are Large Language Models on African Languages? [18.660783984850845]
アフリカの60言語にまたがる6つのタスクにおける4つのポピュラーな大言語モデル(mT0, Aya, LLaMa 2, GPT-4)の分析を行った。
以上の結果から,全てのLLMはアフリカの言語では性能が低いことが示唆され,高リソース言語に比べて性能の差が大きいことが示唆された。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。