論文の概要: ACES: Translation Accuracy Challenge Sets for Evaluating Machine
Translation Metrics
- arxiv url: http://arxiv.org/abs/2210.15615v1
- Date: Thu, 27 Oct 2022 16:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:14:20.257802
- Title: ACES: Translation Accuracy Challenge Sets for Evaluating Machine
Translation Metrics
- Title(参考訳): ACES:機械翻訳メトリクス評価のための翻訳精度問題セット
- Authors: Chantal Amrhein and Nikita Moghe and Liane Guillou
- Abstract要約: 機械翻訳(MT)メトリクスは、毎年人間の判断との相関を改善している。
MTにおける精度誤差に直面する際の計量挙動について検討することが重要である。
我々は、単語/文字レベルでの単純な摂動から、談話や実世界の知識に基づくより複雑なエラーまで、68の現象からなる翻訳精度挑戦セットであるACESをキュレートする。
- 参考スコア(独自算出の注目度): 2.48769664485308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As machine translation (MT) metrics improve their correlation with human
judgement every year, it is crucial to understand the limitations of such
metrics at the segment level. Specifically, it is important to investigate
metric behaviour when facing accuracy errors in MT because these can have
dangerous consequences in certain contexts (e.g., legal, medical). We curate
ACES, a translation accuracy challenge set, consisting of 68 phenomena ranging
from simple perturbations at the word/character level to more complex errors
based on discourse and real-world knowledge. We use ACES to evaluate a wide
range of MT metrics including the submissions to the WMT 2022 metrics shared
task and perform several analyses leading to general recommendations for metric
developers. We recommend: a) combining metrics with different strengths, b)
developing metrics that give more weight to the source and less to
surface-level overlap with the reference and c) explicitly modelling additional
language-specific information beyond what is available via multilingual
embeddings.
- Abstract(参考訳): 機械翻訳(MT)メトリクスは、毎年人間の判断との相関性を改善するため、セグメントレベルでのこれらの指標の限界を理解することが不可欠である。
特に、MTの精度誤差に直面するときの計量的挙動は、特定の状況(例えば、法律、医学)で危険な結果をもたらす可能性があるため、調査することが重要である。
単語/文字レベルでの単純な摂動から、談話と現実世界の知識に基づくより複雑な誤りまで、68の現象からなる翻訳精度チャレンジセットacesをキュレートした。
我々は、WMT 2022メトリクス共有タスクへの提出を含む幅広いMTメトリクスの評価にACESを使用し、メトリクス開発者に対する一般的な勧告につながるいくつかの分析を行う。
推奨する。
a)異なる強度でメトリクスを組み合わせること
b) ソースに対してより重みを与え、参照と表面レベルの重なりを少なくするメトリクスを開発すること。
c) 言語固有の追加情報を、多言語埋め込みで利用できる範囲を超えて明示的にモデル化すること。
関連論文リスト
- Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文 参考訳(メタデータ) (2024-10-07T16:42:10Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - ACES: Translation Accuracy Challenge Sets at WMT 2023 [7.928752019133836]
ACES Challenge Set を用いて WMT 2023 に提出されたセグメントレベルメトリクスのパフォーマンスをベンチマークした。
課題セットは68の現象からの挑戦を表す36Kの例と、146の言語ペアからなる。
各メトリクスについて、一連のエラーカテゴリに対するパフォーマンスの詳細なプロファイルと、比較を行うための全体的なACES-Scoreを提供する。
論文 参考訳(メタデータ) (2023-11-02T11:29:09Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-25T03:25:44Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。