論文の概要: Poor Man's Quality Estimation: Predicting Reference-Based MT Metrics
Without the Reference
- arxiv url: http://arxiv.org/abs/2301.09008v3
- Date: Tue, 25 Apr 2023 13:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 03:28:03.163845
- Title: Poor Man's Quality Estimation: Predicting Reference-Based MT Metrics
Without the Reference
- Title(参考訳): 貧乏者の品質推定:参照のない参照ベースのmtメトリクスの予測
- Authors: Vil\'em Zouhar, Shehzaad Dhuliawala, Wangchunshu Zhou, Nico Daheim,
Tom Kocmi, Yuchen Eleanor Jiang, Mrinmaya Sachan
- Abstract要約: 事前訓練された言語モデルに基づく最先端QEシステムは、人間の判断と顕著な相関を達成している。
基準にアクセスしなくても、我々のモデルは文レベルで自動メトリクスを推定できることを示す。
自動メトリクスは人間の判断と相関するため、QEモデルの事前トレーニングにMEタスクを利用することができます。
- 参考スコア(独自算出の注目度): 27.051818618331428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation quality estimation (QE) predicts human judgements of a
translation hypothesis without seeing the reference. State-of-the-art QE
systems based on pretrained language models have been achieving remarkable
correlations with human judgements yet they are computationally heavy and
require human annotations, which are slow and expensive to create. To address
these limitations, we define the problem of metric estimation (ME) where one
predicts the automated metric scores also without the reference. We show that
even without access to the reference, our model can estimate automated metrics
($\rho$=60% for BLEU, $\rho$=51% for other metrics) at the sentence-level.
Because automated metrics correlate with human judgements, we can leverage the
ME task for pre-training a QE model. For the QE task, we find that pre-training
on TER is better ($\rho$=23%) than training for scratch ($\rho$=20%).
- Abstract(参考訳): 機械翻訳品質推定(QE)は、参照を見ることなく翻訳仮説の人間の判断を予測する。
事前訓練された言語モデルに基づく最先端のQEシステムは、人間の判断と顕著な相関を達成しているが、それらは計算的に重く、作成に時間がかかる人間のアノテーションを必要とする。
これらの制約に対処するために、基準を使わずに自動測定値を予測する計量推定(ME)の問題を定義する。
基準にアクセスしなくても、我々のモデルは自動メトリクス(BLEUは$60%、他のメトリクスは$51%)を文レベルで推定できることを示す。
自動メトリクスは人間の判断と相関するため、QEモデルの事前トレーニングにMEタスクを利用することができます。
QEタスクの場合、TERの事前トレーニングは、スクラッチのトレーニング(\rho$=20%)より優れている(\rho$=23%)。
関連論文リスト
- Quality Estimation with $k$-nearest Neighbors and Automatic Evaluation for Model-specific Quality Estimation [14.405862891194344]
我々は, MTモデルのトレーニングデータから, $k$-nearest 隣人を用いて情報を抽出する,$k$NN-QE と呼ばれるモデル固有で教師なしQE手法を提案する。
モデル固有のQEのパフォーマンスの測定は、MT出力の品質スコアを提供するため、簡単ではない。
そこで本研究では,人為的な基準値ではなく,基準基準値からの品質スコアをゴールドスタンダードとして活用する自動評価手法を提案する。
論文 参考訳(メタデータ) (2024-04-27T23:52:51Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation [25.325624543852086]
本稿では,機械翻訳(MT)システムにおける品質推定の逆検定法を提案する。
近年のSOTAによる人的判断と高い相関があるにもかかわらず、ある種の意味エラーはQEが検出する上で問題である。
第二に、平均的に、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できることが示される。
論文 参考訳(メタデータ) (2021-09-22T17:32:18Z) - MDQE: A More Accurate Direct Pretraining for Machine Translation Quality
Estimation [4.416484585765028]
データ品質とトレーニングの目的の両方において,予測器と推定器の間にはまだギャップがある,と我々は主張する。
本稿では,QEタスクに対してより正確な事前学習を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T09:48:37Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - Unsupervised Quality Estimation for Neural Machine Translation [63.38918378182266]
既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。
MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要なQEに対して、教師なしのアプローチを考案する。
我々は品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。
論文 参考訳(メタデータ) (2020-05-21T12:38:06Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z) - Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。
本稿では,RTTベースのQEにセマンティック埋め込みを適用する。
提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文 参考訳(メタデータ) (2020-04-29T03:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。