論文の概要: SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?
- arxiv url: http://arxiv.org/abs/2506.04557v1
- Date: Thu, 05 Jun 2025 02:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.489667
- Title: SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?
- Title(参考訳): SSA-COMET:LLMは、未公開のアフリカの言語に対するMTの評価において、学習メトリクスより優れているか?
- Authors: Senyu Li, Jiayi Wang, Felermino D. M. A. Ali, Colin Cherry, Daniel Deutsch, Eleftheria Briakou, Rui Sousa-Silva, Henrique Lopes Cardoso, Pontus Stenetorp, David Ifeoluwa Adelani,
- Abstract要約: SSA-COMETとSSA-COMET-QEを開発した。
実験の結果,SSA-COMETモデルの方がAfriCOMETより有意に優れていた。
すべてのリソースは、将来の研究をサポートするために、オープンライセンスでリリースされる。
- 参考スコア(独自算出の注目度): 37.04140252339949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating machine translation (MT) quality for under-resourced African languages remains a significant challenge, as existing metrics often suffer from limited language coverage and poor performance in low-resource settings. While recent efforts, such as AfriCOMET, have addressed some of the issues, they are still constrained by small evaluation sets, a lack of publicly available training data tailored to African languages, and inconsistent performance in extremely low-resource scenarios. In this work, we introduce SSA-MTE, a large-scale human-annotated MT evaluation (MTE) dataset covering 13 African language pairs from the News domain, with over 63,000 sentence-level annotations from a diverse set of MT systems. Based on this data, we develop SSA-COMET and SSA-COMET-QE, improved reference-based and reference-free evaluation metrics. We also benchmark prompting-based approaches using state-of-the-art LLMs like GPT-4o and Claude. Our experimental results show that SSA-COMET models significantly outperform AfriCOMET and are competitive with the strongest LLM (Gemini 2.5 Pro) evaluated in our study, particularly on low-resource languages such as Twi, Luo, and Yoruba. All resources are released under open licenses to support future research.
- Abstract(参考訳): 低リソースのアフリカ言語に対する機械翻訳(MT)の品質評価は、既存のメトリクスが低リソースの環境での言語カバレッジの制限とパフォーマンスの低下に悩まされることが少なくないため、依然として大きな課題である。
AfriCOMETのような最近の取り組みは、いくつかの問題に対処しているが、まだ小さな評価セット、アフリカ言語に合わせた公開トレーニングデータの欠如、非常に低リソースのシナリオでの一貫性のないパフォーマンスに制約されている。
本研究では,ニューズドメインから13のアフリカ語対を対象とする大規模人為的MT評価(MTE)データセットであるSSA-MTEを紹介し,多種多様なMTシステムから63,000以上の文レベルアノテーションを出力する。
このデータに基づいて、SSA-COMETとSSA-COMET-QEを開発し、参照ベースおよび参照フリー評価指標を改善した。
また, GPT-4o や Claude といった最先端の LLM を用いたプロンプトベースアプローチのベンチマークを行った。
実験の結果,SSA-COMETモデルはAfriCOMETよりも優れており,特にTwi,Luo,Yorubaなどの低リソース言語で評価された最強のLLM (Gemini 2.5 Pro) と競合していることがわかった。
すべてのリソースは、将来の研究をサポートするために、オープンライセンスでリリースされる。
関連論文リスト
- Improving Multilingual Math Reasoning for African Languages [49.27985213689457]
データタイプ(翻訳と合成)、トレーニングステージ(事前学習と後学習)、その他のモデル適応構成の異なる組み合わせを評価する実験を行う。
実験では,Llama 3.1 モデルファミリをベースモデルとして,数学的推論タスクに着目した。
論文 参考訳(メタデータ) (2025-05-26T11:35:01Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - AfriMTE and AfriCOMET: Enhancing COMET to Embrace Under-resourced African Languages [33.05774949324384]
13のアフリカ言語を対象とした誤り検出と直接評価(DA)のためのMQMガイドラインを簡素化し,高品質な人体評価データを作成する。
AfriCOMET: AfriCOMET: アフリカの言語に対するCOMET評価指標の開発も行っている。
論文 参考訳(メタデータ) (2023-11-16T11:52:52Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。