論文の概要: Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2006.06264v2
- Date: Fri, 12 Jun 2020 04:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:50:04.221156
- Title: Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics
- Title(参考訳): BLEUにおけるTangled up: 自動機械翻訳評価尺度の再評価
- Authors: Nitika Mathur, Timothy Baldwin and Trevor Cohn
- Abstract要約: 評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
- 参考スコア(独自算出の注目度): 64.88815792555451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic metrics are fundamental for the development and evaluation of
machine translation systems. Judging whether, and to what extent, automatic
metrics concur with the gold standard of human evaluation is not a
straightforward problem. We show that current methods for judging metrics are
highly sensitive to the translations used for assessment, particularly the
presence of outliers, which often leads to falsely confident conclusions about
a metric's efficacy. Finally, we turn to pairwise system ranking, developing a
method for thresholding performance improvement under an automatic metric
against human judgements, which allows quantification of type I versus type II
errors incurred, i.e., insignificant human differences in system quality that
are accepted, and significant human differences that are rejected. Together,
these findings suggest improvements to the protocols for metric evaluation and
system performance evaluation in machine translation.
- Abstract(参考訳): 自動メトリクスは機械翻訳システムの開発と評価に基礎を置いている。
自動測定が人間の評価の金本位制とどの程度一致しているかを判断することは簡単な問題ではない。
測定基準を判断する現在の手法は、評価に使用される翻訳、特に外れ値の存在に非常に敏感であることを示し、測定値の有効性について誤った確固たる結論を導くことがしばしばある。
最後に,人的判断に対する自動判断基準に基づく性能改善のしきい値化手法を開発し,システム品質の重要さと否定される有意な人的差について,I型とII型の誤りの定量化を可能にする。
これらの結果から,機械翻訳におけるメートル法評価とシステム性能評価のプロトコルの改善が示唆された。
関連論文リスト
- BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation [25.325624543852086]
本稿では,機械翻訳(MT)システムにおける品質推定の逆検定法を提案する。
近年のSOTAによる人的判断と高い相関があるにもかかわらず、ある種の意味エラーはQEが検出する上で問題である。
第二に、平均的に、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できることが示される。
論文 参考訳(メタデータ) (2021-09-22T17:32:18Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - BlonD: An Automatic Evaluation Metric for Document-level
MachineTranslation [47.691277066346665]
文書レベルの機械翻訳評価のための自動メトリクスBlonDを提案する。
BlonDは、チェックポイントフレーズやタグのリコールと距離を計算することで、談話のコヒーレンスを考慮に入れている。
論文 参考訳(メタデータ) (2021-03-22T14:14:58Z) - A Human Evaluation of AMR-to-English Generation Systems [13.10463139842285]
本報告では, 流速と精度のスコアを収集し, 誤りの分類を行う新しい評価結果について述べる。
本稿では,これらのシステムの相対的品質と,自動測定値との比較について論じる。
論文 参考訳(メタデータ) (2020-04-14T21:41:30Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。