Fugu-MT 論文翻訳(概要): AfriMTE and AfriCOMET: Enhancing COMET to Embrace Under-resourced African Languages

論文の概要: AfriMTE and AfriCOMET: Enhancing COMET to Embrace Under-resourced African Languages

arxiv url: http://arxiv.org/abs/2311.09828v3
Date: Tue, 23 Apr 2024 18:22:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-25 16:25:00.320314
Title: AfriMTE and AfriCOMET: Enhancing COMET to Embrace Under-resourced African Languages
Title（参考訳）: AfriMTEとAfriCOMET: COMETをアンダーソースのアフリカ言語にエンベッドする
Authors: Jiayi Wang, David Ifeoluwa Adelani, Sweta Agrawal, Marek Masiak, Ricardo Rei, Eleftheria Briakou, Marine Carpuat, Xuanli He, Sofia Bourhim, Andiswa Bukula, Muhidin Mohamed, Temitayo Olatoye, Tosin Adewumi, Hamam Mokayed, Christine Mwase, Wangui Kimotho, Foutse Yuehgoh, Anuoluwapo Aremu, Jessica Ojo, Shamsuddeen Hassan Muhammad, Salomey Osei, Abdul-Hakeem Omotayo, Chiamaka Chukwuneke, Perez Ogayo, Oumaima Hourrane, Salma El Anigri, Lolwethu Ndolela, Thabiso Mangwana, Shafie Abdi Mohamed, Ayinde Hassan, Oluwabusayo Olufunke Awoyomi, Lama Alkhaled, Sana Al-Azzawi, Naome A. Etori, Millicent Ochieng, Clemencia Siro, Samuel Njoroge, Eric Muchiri, Wangari Kimotho, Lyse Naomi Wamba Momo, Daud Abolade, Simbiat Ajao, Iyanuoluwa Shode, Ricky Macharm, Ruqayya Nasir Iro, Saheed S. Abdullahi, Stephen E. Moore, Bernard Opoku, Zainab Akinjobi, Abeeb Afolabi, Nnaemeka Obiefuna, Onyekachi Raphael Ogbu, Sam Brian, Verrah Akinyi Otiende, Chinedu Emmanuel Mbonu, Sakayo Toadoum Sari, Yao Lu, Pontus Stenetorp,
Abstract要約: 13のアフリカ言語を対象とした誤り検出と直接評価(DA)のためのMQMガイドラインを簡素化し,高品質な人体評価データを作成する。 AfriCOMET: AfriCOMET: アフリカの言語に対するCOMET評価指標の開発も行っている。
参考スコア（独自算出の注目度）: 33.05774949324384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the recent progress on scaling multilingual machine translation (MT) to several under-resourced African languages, accurately measuring this progress remains challenging, since evaluation is often performed on n-gram matching metrics such as BLEU, which typically show a weaker correlation with human judgments. Learned metrics such as COMET have higher correlation; however, the lack of evaluation data with human ratings for under-resourced languages, complexity of annotation guidelines like Multidimensional Quality Metrics (MQM), and limited language coverage of multilingual encoders have hampered their applicability to African languages. In this paper, we address these challenges by creating high-quality human evaluation data with simplified MQM guidelines for error detection and direct assessment (DA) scoring for 13 typologically diverse African languages. Furthermore, we develop AfriCOMET: COMET evaluation metrics for African languages by leveraging DA data from well-resourced languages and an African-centric multilingual encoder (AfroXLM-R) to create the state-of-the-art MT evaluation metrics for African languages with respect to Spearman-rank correlation with human judgments (0.441).
Abstract（参考訳）: 近年、マルチリンガル機械翻訳(MT)をいくつかのアンダーリソースアフリカ諸言語に拡張しているにもかかわらず、BLEUのようなn-gramマッチングメトリクスで評価されることがよくあるため、正確な測定は依然として困難である。 COMETのような学習メトリクスは高い相関関係にあるが、低リソース言語に対する評価データと評価データの欠如、多次元品質基準(MQM)のようなガイドラインガイドラインの複雑さ、多言語エンコーダの言語カバレッジの制限によりアフリカ語への適用が妨げられている。本稿では,13のアフリカ言語に対して,誤り検出と直接評価(DA)のためのMQMガイドラインを簡素化した高品質な人的評価データを作成することで,これらの課題に対処する。 AfriCOMET: AfriXLM-R (AfroXLM-R) によるアフリカ言語のDAデータを利用して,スピアマンランクと人間の判断との相関(0.441)に関して,アフリカ言語の最先端のMT評価指標を作成する。

関連論文リスト

Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics [69.2321983942375]
本研究では,n-gram-based metricであるBLEUと,文字-based metricであるChrF++を比較して,EMRL設定におけるMT評価を行う。本研究は,3つのELRL(Magahi,Bhojpuri,Chhattisgarhi)にまたがる幻覚,反復,原文複写,ダイアクリティック(textitmatra)の変化など,各指標が翻訳物にどう反応するかを検討する。最近の研究はChrF++にのみ依存することが多いが、BLEUは絶対スコアが低いにもかかわらず、解釈可能性を改善するための補完的な語彙精度の洞察を提供する。
論文参考訳（メタデータ） (2026-02-19T14:56:42Z)
Beyond N-Grams: Rethinking Evaluation Metrics and Strategies for Multilingual Abstractive Summarization [13.458891794688551]
我々は,n-gramベースとニューラルベースの両方を生成するための評価指標を評価し,言語やタスク間での有効性を評価する。本研究は,評価指標の言語タイプに対する感受性を明らかにするものである。
論文参考訳（メタデータ） (2025-07-11T06:44:52Z)
Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文参考訳（メタデータ） (2025-06-30T22:26:36Z)
SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages? [37.04140252339949]
SSA-COMETとSSA-COMET-QEを開発した。実験の結果,SSA-COMETモデルの方がAfriCOMETより有意に優れていた。すべてのリソースは、将来の研究をサポートするために、オープンライセンスでリリースされる。
論文参考訳（メタデータ） (2025-06-05T02:16:56Z)
LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文参考訳（メタデータ） (2025-05-18T07:24:13Z)
FUSE : A Ridge and Random Forest-Based Metric for Evaluating MT in Indigenous Languages [2.377892000761193]
本稿では,RaaVaチームのAmerices 2025 Shared Task 3における自動機械翻訳のための評価基準の獲得について述べる。評価のためのFUSE (Feature-Union Scorer) を導入し,FUSEはリッジ回帰とグラディエントブースティングを統合して翻訳品質をモデル化する。その結果,FUSE はPearson と Spearman の相関関係を人間の判断と連続的に向上させることがわかった。
論文参考訳（メタデータ） (2025-03-28T06:58:55Z)
Where Are We? Evaluating LLM Performance on African Languages [16.206469767073155]
アフリカにおける豊かな言語遺産は、NLPでは残っていない。本稿では,アフリカにおける言語景観に関する理論的知見と,サハラ語を用いた経験的評価を統合する。
論文参考訳（メタデータ） (2025-02-26T21:49:54Z)
Beyond English: Evaluating Automated Measurement of Moral Foundations in Non-English Discourse with a Chinese Case Study [8.068626035121875]
本研究では、非英語コーパスにおける道徳的基礎(MF)を測定するための計算手法について検討する。本研究は,中国語を事例として,機械翻訳テキスト,局所言語語彙,多言語言語モデル,および多言語モデル(LLM)に英語リソースを適用し,非英語テキストのMFを測定することの有効性を評価する。
論文参考訳（メタデータ） (2025-02-04T16:17:01Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
Advocating Character Error Rate for Multilingual ASR Evaluation [1.2597747768235845]
本稿では,単語誤り率(WER)の限界を評価指標として記述し,文字誤り率(CER)を主指標として提唱する。我々は,CERがWERが直面している課題の多くを回避し,書き込みシステム全体の一貫性を示すことを示す。以上の結果から,多言語ASR評価においてCERを優先的に,少なくとも補足すべきであることが示唆された。
論文参考訳（メタデータ） (2024-10-09T19:57:07Z)
Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction [14.822205658480813]
大規模言語モデル(LLM)は、いくつかのタスクにおいて既存の自動評価指標より優れていることが報告されている。本研究では, 文法的誤り訂正(GEC)評価におけるLLMの性能について, 従来の研究から着想を得たプロンプトを用いて検討した。
論文参考訳（メタデータ） (2024-03-26T09:43:15Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。 AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文参考訳（メタデータ） (2023-11-14T08:10:14Z)
Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文参考訳（メタデータ） (2023-09-14T06:41:58Z)
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (2023-08-14T17:17:21Z)
BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文参考訳（メタデータ） (2023-05-30T15:50:46Z)
ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文参考訳（メタデータ） (2023-04-27T16:38:17Z)
MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文参考訳（メタデータ） (2022-10-22T08:53:14Z)
AfroMT: Pretraining Strategies and Reproducible Benchmarks for Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。 11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文参考訳（メタデータ） (2021-09-10T07:45:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。