論文の概要: BlonD: An Automatic Evaluation Metric for Document-level
MachineTranslation
- arxiv url: http://arxiv.org/abs/2103.11878v1
- Date: Mon, 22 Mar 2021 14:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 23:10:04.328839
- Title: BlonD: An Automatic Evaluation Metric for Document-level
MachineTranslation
- Title(参考訳): BlonD: ドキュメントレベルの機械翻訳のための自動評価基準
- Authors: Yuchen Jiang, Shuming Ma, Dongdong Zhang, Jian Yang, Haoyang Huang and
Ming Zhou
- Abstract要約: 文書レベルの機械翻訳評価のための自動メトリクスBlonDを提案する。
BlonDは、チェックポイントフレーズやタグのリコールと距離を計算することで、談話のコヒーレンスを考慮に入れている。
- 参考スコア(独自算出の注目度): 47.691277066346665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard automatic metrics (such as BLEU) are problematic for document-level
MT evaluation. They can neither distinguish document-level improvements in
translation quality from sentence-level ones nor can they identify the specific
discourse phenomena that caused the translation errors. To address these
problems, we propose an automatic metric BlonD for document-level machine
translation evaluation. BlonD takes discourse coherence into consideration by
calculating the recall and distance of check-pointing phrases and tags, and
further provides comprehensive evaluation scores by combining with n-gram.
Extensive comparisons between BlonD and existing evaluation metrics are
conducted to illustrate their critical distinctions. Experimental results show
that BlonD has a much higher document-level sensitivity with respect to
previous metrics. The human evaluation also reveals high Pearson R correlation
values between BlonD scores and manual quality judgments.
- Abstract(参考訳): 標準自動メトリクス(BLEUなど)は文書レベルのMT評価に問題がある。
文書レベルの翻訳品質の改善を文レベルのものと区別することも、翻訳エラーを引き起こした特定の談話現象を識別することもできない。
これらの問題に対処するために、文書レベルの機械翻訳評価のための自動メトリクスBlonDを提案する。
BlonDは、チェックポイントフレーズとタグのリコールと距離を計算することで、談話コヒーレンスを考慮に入れ、さらにn-gramと組み合わせて総合的な評価スコアを提供する。
ブロンドと既存の評価指標の広範な比較を行い、それらの重要な区別を説明する。
実験の結果,BlonDは従来の測定値よりもドキュメントレベルの感度が高いことがわかった。
また,BlonDスコアと手動品質判定のPearson R相関値も高い値を示した。
関連論文リスト
- Robustness Tests for Automatic Machine Translation Metrics with
Adversarial Attacks [39.86206454559138]
我々は、BERTScore、BLEURT、COMETという3つの一般的な機械翻訳メトリクスに対する単語レベルおよび文字レベルの攻撃実験を行った。
我々の人間実験は、自動的なメトリクスが逆向きに劣化した翻訳を過小評価する傾向があることを実証した。
我々は、より堅牢なメートル法開発を動機付ける脆さのパターンを特定する。
論文 参考訳(メタデータ) (2023-11-01T13:14:23Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-25T03:25:44Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。