論文の概要: Robustness Tests for Automatic Machine Translation Metrics with
Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2311.00508v1
- Date: Wed, 1 Nov 2023 13:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 13:28:04.414174
- Title: Robustness Tests for Automatic Machine Translation Metrics with
Adversarial Attacks
- Title(参考訳): 対向攻撃を伴う自動機械翻訳メトリクスのロバスト性試験
- Authors: Yichen Huang, Timothy Baldwin
- Abstract要約: 我々は、BERTScore、BLEURT、COMETという3つの一般的な機械翻訳メトリクスに対する単語レベルおよび文字レベルの攻撃実験を行った。
我々の人間実験は、自動的なメトリクスが逆向きに劣化した翻訳を過小評価する傾向があることを実証した。
我々は、より堅牢なメートル法開発を動機付ける脆さのパターンを特定する。
- 参考スコア(独自算出の注目度): 39.86206454559138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate MT evaluation metric performance on adversarially-synthesized
texts, to shed light on metric robustness. We experiment with word- and
character-level attacks on three popular machine translation metrics:
BERTScore, BLEURT, and COMET. Our human experiments validate that automatic
metrics tend to overpenalize adversarially-degraded translations. We also
identify inconsistencies in BERTScore ratings, where it judges the original
sentence and the adversarially-degraded one as similar, while judging the
degraded translation as notably worse than the original with respect to the
reference. We identify patterns of brittleness that motivate more robust metric
development.
- Abstract(参考訳): 逆合成テキスト上でのMT評価指標の性能について検討し, 計量ロバスト性に光を当てた。
我々は、BERTScore、BLEURT、COMETという3つの一般的な機械翻訳メトリクスに対する単語レベルおよび文字レベルの攻撃実験を行った。
我々の人間実験は、自動的なメトリクスが逆向きに劣化した翻訳を過小評価する傾向があることを実証した。
また,原文を判断するbertscore ratingsにおける不整合を識別し,逆行文と逆行文の類似性を判断する一方で,劣化した翻訳文は原文よりも参照に関して著しく悪いと判断する。
我々は、より堅牢なメトリクス開発を動機付ける脆さのパターンを特定します。
関連論文リスト
- BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - BLEU, METEOR, BERTScore: Evaluation of Metrics Performance in Assessing
Critical Translation Errors in Sentiment-oriented Text [1.4213973379473654]
オンラインコンテンツの機械翻訳(MT)は、複数の言語で書かれた投稿の処理に一般的に使用される。
本稿では,機械翻訳の致命的誤りを検出するための自動品質指標の有効性を評価する。
我々は、感情クリティカルなエラーの検出をより堅牢にするために、自動メトリクスの微調整が必要であると結論付けている。
論文 参考訳(メタデータ) (2021-09-29T07:51:17Z) - BlonD: An Automatic Evaluation Metric for Document-level
MachineTranslation [47.691277066346665]
文書レベルの機械翻訳評価のための自動メトリクスBlonDを提案する。
BlonDは、チェックポイントフレーズやタグのリコールと距離を計算することで、談話のコヒーレンスを考慮に入れている。
論文 参考訳(メタデータ) (2021-03-22T14:14:58Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。