Fugu-MT 論文翻訳(概要): Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

論文の概要: Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

arxiv url: http://arxiv.org/abs/2605.04208v1
Date: Tue, 05 May 2026 18:47:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-07 18:41:07.493131
Title: Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages
Title（参考訳）: Nsanku:ガーナ語におけるLLMのゼロショット翻訳性能の評価
Authors: Stephen E. Moore, Mich-Seth Owusu, Akwasi Asare, Lawrence Adu Gyamfi, Paul Azunre, Joel Budu, Jonathan Asiamah, Elias Dzobo, Kelvin Newman, Edmund O. Benefo, Gerhardt Datsomor, Onesimus Addo Appiah, Ama Branoa Banful, Lucas Woedem Kpatah, Saani Mustapha Deishini, John Ayernor,
Abstract要約: LLM(Large Language Model)は、オープンソースの言語に対する印象的な多言語機能を示す。 Nsankuは、43のガーナ言語にわたる19のオープンウェイトおよびプロプライエタリなLLMのゼロショット機械翻訳性能を評価する、体系的なベンチマークである。モデルも言語も、高いパフォーマンスと高い一貫性を同時に備えたLeadersの四分の一には届かなかった。
参考スコア（独自算出の注目度）: 0.03138897474419886
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated impressive multilingual capabilities for well-resourced languages, yet their performance on low-resource African languages remains poorly understood and largely unevaluated. This paper presents Nsanku, a systematic benchmark that evaluates the zero-shot machine translation performance of 19 open-weight and proprietary LLMs across 43 Ghanaian languages paired with English. Evaluation sentences were sourced from the YouVersion Bible platform, providing 300 sentence pairs per language. Two complementary automatic metrics are employed: Bilingual Evaluation Understudy (BLEU) and Character n-gram F-Score (chrF), alongside an average accuracy score and a cross-language consistency dimension. Nsanku represents the most comprehensive LLM translation evaluation for Ghanaian languages conducted to date. Results show that gemini-2.5-flash achieves the highest overall average score of 26.88 (BLEU: 24.60, chrF: 29.16), followed by claude-sonnet-4-5 at 24.87 (BLEU: 22.46, chrF: 27.28) and gpt-4.1 at 23.20 (BLEU: 21.15, chrF: 25.24). Among open-weight models, kimi-k2-instruct-0905 leads at an average score of 20.87. A critical finding from the consistency analysis is that no model and no language reached the Leaders quadrant of high performance and high consistency simultaneously, indicating that current LLMs are not yet reliably usable for Ghanaian language translation at scale. Siwu achieved the highest per-language average score at 25.73 while Nkonya scored lowest at 11.65. Nsanku establishes a publicly available, community-extensible evaluation infrastructure for African language NLP research.
Abstract（参考訳）: 大規模言語モデル (LLM) は、十分なリソースを持つ言語に対する印象的な多言語機能を示してきたが、低リソースのアフリカ言語に対する性能はよく理解されておらず、ほとんど評価されていない。本稿では,ガナ語43言語を対象に,オープンウェイトおよびプロプライエタリなLLM19のゼロショット機械翻訳性能を評価するシステムベンチマークであるNsankuを提案する。評価文はYouVersion Bibleプラットフォームから提供され、言語毎に300の文対を提供する。両言語評価アンダーストゥディ (BLEU) とキャラクタ n-gram F-Score (chrF) の2つの補完的な自動測度が、平均精度スコアと言語間の整合度とともに採用されている。 Nsankuは、現在までのガーナ語における最も包括的なLLM翻訳評価である。その結果、gemini-2.5-flashは26.88点(BLEU:24.60点、chrF:29.16点)、claude-sonnet-4-5点(BLEU:22.46点、chrF:27.28点)、gpt-4.1点(BLEU:21.15点、chrF:25.24点)が最高点に達した。オープンウェイトモデルでは、キミ-k2-インストラクト-0905が平均スコア20.87でリードする。一貫性分析から重要な発見は、モデルも言語も、ハイパフォーマンスと高一貫性の両院に同時に到達していないことである。シウは平均25.73で最高得点を記録し、ニコニャは11.65で最低得点を記録した。 Nsankuは、アフリカ語NLP研究のための、公開され、コミュニティで拡張可能な評価基盤を確立している。

関連論文リスト

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [85.78821098963607]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
INJONGO: A Multicultural Intent Detection and Slot-filling Dataset for 16 African Languages [15.983678567785004]
スロットフィリングとインテント検出は、会話型AIにおいて確立されたタスクである。 Injongoは16のアフリカ言語のための、多文化でオープンソースのベンチマークデータセットです。アフリカ文化の発話を西洋中心の発話に活用して言語間移動を改善する利点を示す。
論文参考訳（メタデータ） (2025-02-13T23:17:10Z)
NLIP_Lab-IITH Multilingual MT System for WAT24 MT Shared Task [9.476463361600826]
本稿では,NLIP Lab の多言語機械翻訳システムである WAT24 の多言語 Indic MT タスクにおける共有タスクについて述べる。本稿では、アライメント合意の目的を用いたIndic言語の事前学習について検討する。我々は,小型かつ高品質なシードデータを用いて,言語指向の多言語翻訳モデルを微調整した。
論文参考訳（メタデータ） (2024-10-17T11:18:23Z)
IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。 IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文参考訳（メタデータ） (2024-06-05T15:23:08Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
Assessing Translation capabilities of Large Language Models involving English and Indian Languages [4.067706269490143]
機械翻訳を英語と22のインド語を含む課題として用いて,大規模言語モデルの多言語的機能について検討する。パラメータ効率のよいLoRAなどの微調整手法と,さらに完全な微調整を併用して,これらの大規模言語モデルを微調整する。その結果,平均BLEUスコアは13.42,15.93,12.13,12.30,12.07,CHRFスコアは43.98,46.99,42.55,42.42,45.39であった。
論文参考訳（メタデータ） (2023-11-15T18:58:19Z)
ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。 MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文参考訳（メタデータ） (2023-09-14T04:36:00Z)
AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。は、アメリカ大陸の10の原住民の言語である。 XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。 XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文参考訳（メタデータ） (2021-04-18T05:32:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。