論文の概要: IndicMT Eval: A Dataset to Meta-Evaluate Machine Translation metrics for
Indian Languages
- arxiv url: http://arxiv.org/abs/2212.10180v2
- Date: Mon, 3 Jul 2023 14:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 15:00:15.604701
- Title: IndicMT Eval: A Dataset to Meta-Evaluate Machine Translation metrics for
Indian Languages
- Title(参考訳): IndicMT Eval: インド言語のためのメタ評価機械翻訳メトリクスデータセット
- Authors: Ananya B. Sai, Vignesh Nagarajan, Tanay Dixit, Raj Dabre, Anoop
Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra
- Abstract要約: 5つのインドの言語と7つのMTシステムにまたがる、7000の細かいアノテーションからなるMQMデータセットを作成します。
この結果から,COMETなどの事前学習メトリクスはアノテータスコアと最も高い相関関係があることが示唆された。
これらの指標は,インドの言語におけるフラレンシに基づく誤りを適切に捉えていないことが判明した。
- 参考スコア(独自算出の注目度): 25.654787264483183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of machine translation (MT) systems has necessitated
comprehensive studies to meta-evaluate evaluation metrics being used, which
enables a better selection of metrics that best reflect MT quality.
Unfortunately, most of the research focuses on high-resource languages, mainly
English, the observations for which may not always apply to other languages.
Indian languages, having over a billion speakers, are linguistically different
from English, and to date, there has not been a systematic study of evaluating
MT systems from English into Indian languages. In this paper, we fill this gap
by creating an MQM dataset consisting of 7000 fine-grained annotations,
spanning 5 Indian languages and 7 MT systems, and use it to establish
correlations between annotator scores and scores obtained using existing
automatic metrics. Our results show that pre-trained metrics, such as COMET,
have the highest correlations with annotator scores. Additionally, we find that
the metrics do not adequately capture fluency-based errors in Indian languages,
and there is a need to develop metrics focused on Indian languages. We hope
that our dataset and analysis will help promote further research in this area.
- Abstract(参考訳): 機械翻訳(MT)システムの急速な成長は、使用中の評価指標をメタ評価するために総合的な研究を必要としており、MTの品質を最もよく反映した指標の選択を可能にする。
残念なことに、研究の大半は高リソース言語(主に英語)に焦点を当てており、他の言語には必ずしも当てはまらない。
インド語は10億以上の話者を持つが、言語学的に英語とは異なっており、これまでは、MTシステムを英語からインド語に評価する体系的な研究は行われていない。
本稿では,5つのインド語と7つのMTシステムにまたがる,7000の細かいアノテーションからなるMQMデータセットを作成し,既存の自動メトリクスを用いて得られるアノテータスコアとスコアの相関関係を確立することにより,このギャップを埋める。
この結果から,COMETなどの事前学習メトリクスはアノテータスコアと高い相関関係を示した。
さらに,インド言語におけるフルーエンシーに基づくエラーを適切に捉えていないこと,インド言語に焦点を絞ったメトリクスを開発する必要があること,などを見いだした。
われわれのデータセットと分析が、この分野のさらなる研究を促進することを願っている。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - A Data Bootstrapping Recipe for Low Resource Multilingual Relation
Classification [38.83366564843953]
IndoREは21Kのエンティティと3つのインド語と英語でタグ付けされた金の文を持つデータセットである。
まず,多言語BERT (mBERT) ベースのシステムから始める。
我々は、高価な金のインスタンスと翻訳された'銀のインスタンスと整合した'銀のインスタンスとの精度のトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。