論文の概要: AfriMTE and AfriCOMET: Enhancing COMET to Embrace Under-resourced African Languages
- arxiv url: http://arxiv.org/abs/2311.09828v2
- Date: Thu, 11 Apr 2024 17:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 18:57:05.776518
- Title: AfriMTE and AfriCOMET: Enhancing COMET to Embrace Under-resourced African Languages
- Title(参考訳): AfriMTEとAfriCOMET: COMETをアンダーソースのアフリカ言語にエンベッドする
- Authors: Jiayi Wang, David Ifeoluwa Adelani, Sweta Agrawal, Marek Masiak, Ricardo Rei, Eleftheria Briakou, Marine Carpuat, Xuanli He, Sofia Bourhim, Andiswa Bukula, Muhidin Mohamed, Temitayo Olatoye, Tosin Adewumi, Hamam Mokayede, Christine Mwase, Wangui Kimotho, Foutse Yuehgoh, Anuoluwapo Aremu, Jessica Ojo, Shamsuddeen Hassan Muhammad, Salomey Osei, Abdul-Hakeem Omotayo, Chiamaka Chukwuneke, Perez Ogayo, Oumaima Hourrane, Salma El Anigri, Lolwethu Ndolela, Thabiso Mangwana, Shafie Abdi Mohamed, Ayinde Hassan, Oluwabusayo Olufunke Awoyomi, Lama Alkhaled, Sana Al-Azzawi, Naome A. Etori, Millicent Ochieng, Clemencia Siro, Samuel Njoroge, Eric Muchiri, Wangari Kimotho, Lyse Naomi Wamba Momo, Daud Abolade, Simbiat Ajao, Iyanuoluwa Shode, Ricky Macharm, Ruqayya Nasir Iro, Saheed S. Abdullahi, Stephen E. Moore, Bernard Opoku, Zainab Akinjobi, Abeeb Afolabi, Nnaemeka Obiefuna, Onyekachi Raphael Ogbu, Sam Brian, Verrah Akinyi Otiende, Chinedu Emmanuel Mbonu, Sakayo Toadoum Sari, Yao Lu, Pontus Stenetorp,
- Abstract要約: 13のアフリカ言語を対象とした誤り検出と直接評価(DA)のためのMQMガイドラインを簡素化し,高品質な人体評価データを作成する。
AfriCOMET: AfriCOMET: アフリカの言語に対するCOMET評価指標の開発も行っている。
- 参考スコア(独自算出の注目度): 32.81587466147761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent progress on scaling multilingual machine translation (MT) to several under-resourced African languages, accurately measuring this progress remains challenging, since evaluation is often performed on n-gram matching metrics such as BLEU, which typically show a weaker correlation with human judgments. Learned metrics such as COMET have higher correlation; however, the lack of evaluation data with human ratings for under-resourced languages, complexity of annotation guidelines like Multidimensional Quality Metrics (MQM), and limited language coverage of multilingual encoders have hampered their applicability to African languages. In this paper, we address these challenges by creating high-quality human evaluation data with simplified MQM guidelines for error detection and direct assessment (DA) scoring for 13 typologically diverse African languages. Furthermore, we develop AfriCOMET: COMET evaluation metrics for African languages by leveraging DA data from well-resourced languages and an African-centric multilingual encoder (AfroXLM-R) to create the state-of-the-art MT evaluation metrics for African languages with respect to Spearman-rank correlation with human judgments (0.441).
- Abstract(参考訳): 近年、マルチリンガル機械翻訳(MT)をいくつかのアンダーリソースアフリカ諸言語に拡張しているにもかかわらず、BLEUのようなn-gramマッチングメトリクスで評価されることがよくあるため、正確な測定は依然として困難である。
COMETのような学習メトリクスは高い相関関係にあるが、低リソース言語に対する評価データと評価データの欠如、多次元品質基準(MQM)のようなガイドラインガイドラインの複雑さ、多言語エンコーダの言語カバレッジの制限によりアフリカ語への適用が妨げられている。
本稿では,13のアフリカ言語に対して,誤り検出と直接評価(DA)のためのMQMガイドラインを簡素化した高品質な人的評価データを作成することで,これらの課題に対処する。
AfriCOMET: AfriXLM-R (AfroXLM-R) によるアフリカ言語のDAデータを利用して,スピアマンランクと人間の判断との相関(0.441)に関して,アフリカ言語の最先端のMT評価指標を作成する。
関連論文リスト
- Advocating Character Error Rate for Multilingual ASR Evaluation [1.2597747768235845]
本稿では,単語誤り率(WER)の限界を評価指標として記述し,文字誤り率(CER)を主指標として提唱する。
我々は,CERがWERが直面している課題の多くを回避し,書き込みシステム全体の一貫性を示すことを示す。
以上の結果から,多言語ASR評価においてCERを優先的に,少なくとも補足すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T19:57:07Z) - Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction [14.822205658480813]
大規模言語モデル(LLM)は、いくつかのタスクにおいて既存の自動評価指標より優れていることが報告されている。
本研究では, 文法的誤り訂正(GEC)評価におけるLLMの性能について, 従来の研究から着想を得たプロンプトを用いて検討した。
論文 参考訳(メタデータ) (2024-03-26T09:43:15Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。