論文の概要: Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets
- arxiv url: http://arxiv.org/abs/2401.16313v1
- Date: Mon, 29 Jan 2024 17:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:06:45.885849
- Title: Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets
- Title(参考訳): 翻訳精度チャレンジセットによる機械翻訳メタ評価
- Authors: Nikita Moghe, Arnisa Fazla, Chantal Amrhein, Tom Kocmi, Mark Steedman,
Alexandra Birch, Rico Sennrich, Liane Guillou
- Abstract要約: ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
- 参考スコア(独自算出の注目度): 92.38654521870444
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent machine translation (MT) metrics calibrate their effectiveness by
correlating with human judgement but without any insights about their behaviour
across different error types. Challenge sets are used to probe specific
dimensions of metric behaviour but there are very few such datasets and they
either focus on a limited number of phenomena or a limited number of language
pairs. We introduce ACES, a contrastive challenge set spanning 146 language
pairs, aimed at discovering whether metrics can identify 68 translation
accuracy errors. These phenomena range from simple alterations at the
word/character level to more complex errors based on discourse and real-world
knowledge. We conduct a large-scale study by benchmarking ACES on 50 metrics
submitted to the WMT 2022 and 2023 metrics shared tasks. We benchmark metric
performance, assess their incremental performance over successive campaigns,
and measure their sensitivity to a range of linguistic phenomena. We also
investigate claims that Large Language Models (LLMs) are effective as MT
evaluators by evaluating on ACES. Our results demonstrate that different metric
families struggle with different phenomena and that LLM-based methods fail to
demonstrate reliable performance. Our analyses indicate that most metrics
ignore the source sentence, tend to prefer surface-level overlap and end up
incorporating properties of base models which are not always beneficial. We
expand ACES to include error span annotations, denoted as SPAN-ACES and we use
this dataset to evaluate span-based error metrics showing these metrics also
need considerable improvement. Finally, we provide a set of recommendations for
building better MT metrics, including focusing on error labels instead of
scores, ensembling, designing strategies to explicitly focus on the source
sentence, focusing on semantic content and choosing the right base model for
representations.
- Abstract(参考訳): 最近の機械翻訳(MT)メトリクスは、人間の判断に関連付けることで、その効果を校正するが、異なるエラータイプにまたがる彼らの振る舞いについての洞察は得られない。
チャレンジセットは、メートル法行動の特定の次元を探索するために使用されるが、そのようなデータセットは非常に少なく、限られた数の現象や限られた数の言語対に焦点を当てている。
68の翻訳精度の誤りを識別できるかどうかを判断するために,146の言語ペアにまたがる対照的なチャレンジセットであるacesを紹介する。
これらの現象は、単語/文字レベルでの単純な変更から、会話や現実世界の知識に基づくより複雑なエラーまで様々である。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで大規模な研究を行う。
評価指標のパフォーマンスをベンチマークし、連続したキャンペーンよりも漸進的なパフォーマンスを評価し、様々な言語現象に対する感度を測定する。
また,大規模言語モデル(LLM)がMT評価器として有効であることを示す。
以上の結果から,異なる計量系は異なる現象に悩まされ,LCM法では信頼性の高い性能を示すことができないことが示された。
分析の結果、ほとんどの指標は原文を無視し、表面レベルの重なり合いを好み、必ずしも有益ではないベースモデルの特性を組み込む傾向にあることがわかった。
ACESを拡張して、SPAN-ACESと表記されるエラースパンアノテーションを含むようにし、このデータセットを使用して、これらのメトリクスにも大幅な改善が必要であることを示すスパンベースのエラーメトリクスを評価します。
最後に、スコアの代わりにエラーラベルにフォーカスする、アンサンブルする、ソース文に明示的にフォーカスする戦略を設計する、セマンティックコンテンツにフォーカスする、表現のための正しいベースモデルを選択するなど、よりよいMTメトリクスを構築するための一連の推奨事項を提供する。
関連論文リスト
- ACES: Translation Accuracy Challenge Sets at WMT 2023 [7.928752019133836]
ACES Challenge Set を用いて WMT 2023 に提出されたセグメントレベルメトリクスのパフォーマンスをベンチマークした。
課題セットは68の現象からの挑戦を表す36Kの例と、146の言語ペアからなる。
各メトリクスについて、一連のエラーカテゴリに対するパフォーマンスの詳細なプロファイルと、比較を行うための全体的なACES-Scoreを提供する。
論文 参考訳(メタデータ) (2023-11-02T11:29:09Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - MuLER: Detailed and Scalable Reference-based Evaluation [24.80921931416632]
そこで本研究では,テキスト生成のための基準ベース評価基準を細粒度解析ツールに変換する手法を提案する。
システムとメートル法が与えられたとき、MulERは選択されたメートル法が特定のエラータイプをどれだけ罰するかを定量化する。
我々は,MulERの有効性を実証し,その有用性を示すために,合成的および自然主義的な設定の両方で実験を行う。
論文 参考訳(メタデータ) (2023-05-24T10:26:13Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - ACES: Translation Accuracy Challenge Sets for Evaluating Machine
Translation Metrics [2.48769664485308]
機械翻訳(MT)メトリクスは、毎年人間の判断との相関を改善している。
MTにおける精度誤差に直面する際の計量挙動について検討することが重要である。
我々は、単語/文字レベルでの単純な摂動から、談話や実世界の知識に基づくより複雑なエラーまで、68の現象からなる翻訳精度挑戦セットであるACESをキュレートする。
論文 参考訳(メタデータ) (2022-10-27T16:59:02Z) - DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-25T03:25:44Z) - A global analysis of metrics used for measuring performance in natural
language processing [9.433496814327086]
自然言語処理の性能測定に使用されるメトリクスの,最初の大規模断面積解析を行う。
結果から,現在使用されている自然言語処理メトリクスの大部分は,モデルの性能を不適切に反映する特性を持っていることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T11:41:50Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。