Fugu-MT 論文翻訳(概要): Quality and Quantity of Machine Translation References for Automatic Metrics

論文の概要: Quality and Quantity of Machine Translation References for Automatic Metrics

arxiv url: http://arxiv.org/abs/2401.01283v4
Date: Thu, 7 Mar 2024 14:36:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 17:18:00.574076
Title: Quality and Quantity of Machine Translation References for Automatic Metrics
Title（参考訳）: 自動計測のための機械翻訳基準の品質と量
Authors: Vil\'em Zouhar, Ond\v{r}ej Bojar
Abstract要約: 高品質な参照は、セグメントレベルの人間とのより良い計量相関をもたらす。異なる品質のベンダーからの参照は混在し、メートル法の成功を改善することができる。これらの発見は、特定の予算の下で参照を作成する必要がある場合、共有タスクの評価者によって利用することができる。
参考スコア（独自算出の注目度）: 5.982922468400901
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic machine translation metrics typically rely on human translations to determine the quality of system translations. Common wisdom in the field dictates that the human references should be of very high quality. However, there are no cost-benefit analyses that could be used to guide practitioners who plan to collect references for machine translation evaluation. We find that higher-quality references lead to better metric correlations with humans at the segment-level. Having up to 7 references per segment and taking their average (or maximum) helps all metrics. Interestingly, the references from vendors of different qualities can be mixed together and improve metric success. Higher quality references, however, cost more to create and we frame this as an optimization problem: given a specific budget, what references should be collected to maximize metric success. These findings can be used by evaluators of shared tasks when references need to be created under a certain budget.
Abstract（参考訳）: 自動機械翻訳メトリクスは通常、システム翻訳の品質を決定するために人間の翻訳に依存する。この分野の一般的な知恵は、人間の参照は非常に高品質であるべきだと規定している。しかし,機械翻訳評価の参考資料収集を計画する実践者の指導には,費用対効果分析は使用できない。高品質な参照は、セグメントレベルでの人間とのメトリクス相関をより良くする。セグメントごとに7つの参照を持ち、その平均値(最大値)を取ることは、すべてのメトリクスに役立つ。興味深いことに、異なる品質のベンダーからの参照を混ぜ合わせてメトリクスの成功を改善することができる。しかし、高品質な参照は作成により多くのコストがかかり、これを最適化の問題とみなす:特定の予算が与えられたら、メートル法の成功を最大化するためにどの参照を収集すべきか。これらの発見は、特定の予算の下で参照を作成する必要がある場合、共有タスクの評価者によって利用することができる。

関連論文リスト

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics [4.881135687863645]
我々は,人間の評価値とよく相関する基準のないメトリクスを導入し,計算が極めて安価である。また,低品質の参照設定におけるロバスト性を改善するために,基準ベースのメトリクスと併用することも示している。
論文参考訳（メタデータ） (2024-10-08T11:09:25Z)
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文参考訳（メタデータ） (2024-03-21T10:31:11Z)
Evaluating Optimal Reference Translations [4.956416618428049]
本稿では,より信頼性の高い文書レベルの人文参照翻訳手法を提案する。得られた文書レベルの最適参照翻訳を「標準」翻訳と比較して評価した。
論文参考訳（メタデータ） (2023-11-28T13:50:50Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文参考訳（メタデータ） (2022-10-22T22:12:06Z)
Rethink about the Word-level Quality Estimation for Machine Translation from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文参考訳（メタデータ） (2022-09-13T02:37:12Z)
Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文参考訳（メタデータ） (2021-11-15T12:09:08Z)
To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。 BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文参考訳（メタデータ） (2021-07-22T17:22:22Z)
REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文参考訳（メタデータ） (2021-05-30T10:04:13Z)
Human-Paraphrased References Improve Neural Machine Translation [33.86920777067357]
パラフレーズ参照へのチューニングは、人間の判断によりかなり良いシステムを生み出すことを示す。我々の研究は、パラフレーズ参照が人間の判断と相関する指標となることを確認する。
論文参考訳（メタデータ） (2020-10-20T13:14:57Z)
BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文参考訳（メタデータ） (2020-04-13T16:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。