論文の概要: AfriMTE and AfriCOMET: Empowering COMET to Embrace Under-resourced
African Languages
- arxiv url: http://arxiv.org/abs/2311.09828v1
- Date: Thu, 16 Nov 2023 11:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:32:01.616482
- Title: AfriMTE and AfriCOMET: Empowering COMET to Embrace Under-resourced
African Languages
- Title(参考訳): AfriMTEとAfriCOMET: COMETをオープンソースでないアフリカの言語に組み込む
- Authors: Jiayi Wang, David Ifeoluwa Adelani, Sweta Agrawal, Ricardo Rei,
Eleftheria Briakou, Marine Carpuat, Marek Masiak, Xuanli He, Sofia Bourhim,
Andiswa Bukula, Muhidin Mohamed, Temitayo Olatoye, Hamam Mokayede, Christine
Mwase, Wangui Kimotho, Foutse Yuehgoh, Anuoluwapo Aremu, Jessica Ojo,
Shamsuddeen Hassan Muhammad, Salomey Osei, Abdul-Hakeem Omotayo, Chiamaka
Chukwuneke, Perez Ogayo, Oumaima Hourrane, Salma El Anigri, Lolwethu Ndolela,
Thabiso Mangwana, Shafie Abdi Mohamed, Ayinde Hassan, Oluwabusayo Olufunke
Awoyomi, Lama Alkhaled, Sana Al-Azzawi, Naome A. Etori, Millicent Ochieng,
Clemencia Siro, Samuel Njoroge, Eric Muchiri, Wangari Kimotho, Lyse Naomi
Wamba Momo, Daud Abolade, Simbiat Ajao, Tosin Adewumi, Iyanuoluwa Shode,
Ricky Macharm, Ruqayya Nasir Iro, Saheed S. Abdullahi, Stephen E. Moore,
Bernard Opoku, Zainab Akinjobi, Abeeb Afolabi, Nnaemeka Obiefuna, Onyekachi
Raphael Ogbu, Sam Brian, Verrah Akinyi Otiende, Chinedu Emmanuel Mbonu,
Sakayo Toadoum Sari, Pontus Stenetorp
- Abstract要約: 我々は、高リソース言語とアフリカ中心多言語エンコーダ(AfroXLM-Roberta)からのDAトレーニングデータを活用することで、アフリカの言語に対するCOMET評価指標を開発する。
我々は、高リソース言語とアフリカ中心多言語エンコーダ(AfroXLM-Roberta)のDAトレーニングデータを活用することで、アフリカ言語のためのCOMET評価指標であるAfriCOMETを作成する。
- 参考スコア(独自算出の注目度): 31.594766924877618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the progress we have recorded in scaling multilingual machine
translation (MT) models and evaluation data to several under-resourced African
languages, it is difficult to measure accurately the progress we have made on
these languages because evaluation is often performed on n-gram matching
metrics like BLEU that often have worse correlation with human judgments.
Embedding-based metrics such as COMET correlate better; however, lack of
evaluation data with human ratings for under-resourced languages, complexity of
annotation guidelines like Multidimensional Quality Metrics (MQM), and limited
language coverage of multilingual encoders have hampered their applicability to
African languages. In this paper, we address these challenges by creating
high-quality human evaluation data with a simplified MQM guideline for
error-span annotation and direct assessment (DA) scoring for 13 typologically
diverse African languages. Furthermore, we develop AfriCOMET, a COMET
evaluation metric for African languages by leveraging DA training data from
high-resource languages and African-centric multilingual encoder
(AfroXLM-Roberta) to create the state-of-the-art evaluation metric for African
languages MT with respect to Spearman-rank correlation with human judgments
(+0.406).
- Abstract(参考訳): マルチリンガル機械翻訳(MT)モデルと評価データを複数のアンダーリソースアフリカ言語に拡張する過程で記録した進歩にもかかわらず、人間の判断と相関の悪いBLEUのようなn-gramマッチングメトリクスで評価が行われるため、これらの言語で行った進歩を正確に測定することは困難である。
しかし、COMETのような埋め込みベースのメトリクスは相関性が高いが、アンダーリソース言語に対する評価データと評価データの欠如、多次元品質指標(MQM)のようなアノテーションガイドラインの複雑さ、多言語エンコーダの言語カバレッジの制限によりアフリカ言語への適用が妨げられている。
本稿では, ミススパンアノテーションと直接評価(DA)のための簡易なMQMガイドラインを用いた高品質な人的評価データを作成することで, 13のアフリカ言語に対して, これらの課題に対処する。
さらに,高リソース言語とアフリカ中心多言語エンコーダ(AfroXLM-Roberta)のDAトレーニングデータを利用して,アフリカ言語MTの最先端評価指標を作成することで,人間の判断とのスピアマンランク相関(+0.406)についてアフリカ言語のCOMETを作成する。
関連論文リスト
- Advocating Character Error Rate for Multilingual ASR Evaluation [1.2597747768235845]
本稿では,単語誤り率(WER)の限界を評価指標として記述し,文字誤り率(CER)を主指標として提唱する。
我々は,CERがWERが直面している課題の多くを回避し,書き込みシステム全体の一貫性を示すことを示す。
以上の結果から,多言語ASR評価においてCERを優先的に,少なくとも補足すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T19:57:07Z) - Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction [14.822205658480813]
大規模言語モデル(LLM)は、いくつかのタスクにおいて既存の自動評価指標より優れていることが報告されている。
本研究では, 文法的誤り訂正(GEC)評価におけるLLMの性能について, 従来の研究から着想を得たプロンプトを用いて検討した。
論文 参考訳(メタデータ) (2024-03-26T09:43:15Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。