論文の概要: Human-Paraphrased References Improve Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2010.10245v1
- Date: Tue, 20 Oct 2020 13:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:01:53.297829
- Title: Human-Paraphrased References Improve Neural Machine Translation
- Title(参考訳): ヒューマンパラフレーズ参照によるニューラルマシン翻訳の改善
- Authors: Markus Freitag, George Foster, David Grangier, Colin Cherry
- Abstract要約: パラフレーズ参照へのチューニングは、人間の判断によりかなり良いシステムを生み出すことを示す。
我々の研究は、パラフレーズ参照が人間の判断と相関する指標となることを確認する。
- 参考スコア(独自算出の注目度): 33.86920777067357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation comparing candidate translations to human-generated
paraphrases of reference translations has recently been proposed by Freitag et
al. When used in place of original references, the paraphrased versions produce
metric scores that correlate better with human judgment. This effect holds for
a variety of different automatic metrics, and tends to favor natural
formulations over more literal (translationese) ones. In this paper we compare
the results of performing end-to-end system development using standard and
paraphrased references. With state-of-the-art English-German NMT components, we
show that tuning to paraphrased references produces a system that is
significantly better according to human judgment, but 5 BLEU points worse when
tested on standard references. Our work confirms the finding that paraphrased
references yield metric scores that correlate better with human judgment, and
demonstrates for the first time that using these scores for system development
can lead to significant improvements.
- Abstract(参考訳): freitagらによって最近提案されている参照翻訳の人間が生成したパラフレーズと候補翻訳を比較する自動評価法。
オリジナルの参照の代わりに使われる場合、パラフレーズ付きバージョンは人間の判断とよく相関するメートル法スコアを生成する。
この効果は様々な異なる自動測度を持ち、より多くのリテラル(翻訳)よりも自然な定式化を好む傾向がある。
本稿では,標準参照とパラフレーズ参照を用いたエンドツーエンドシステム開発の結果を比較する。
現状の英語-ドイツ語のNMTコンポーネントでは, パラフレーズ参照のチューニングにより, 人間の判断により有意に優れたシステムが得られるが, 5 BLEU は標準基準でテストするとさらに悪い。
本研究は, パラフレーズ参照が人間の判断と相関する基準値が得られることを確認し, システム開発にこれらのスコアを用いることで, 大幅な改善が期待できることを示す。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Language Model Augmented Relevance Score [2.8314622515446835]
Language Model Augmented Relevance Score (MARS)は、NLG評価のための新しい文脈対応メトリックである。
MARSは、強化学習によってガイドされる既製の言語モデルを使用して、生成コンテキストと利用可能な人間の参照の両方を考慮した拡張参照を生成する。
論文 参考訳(メタデータ) (2021-08-19T03:59:23Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - A Human Evaluation of AMR-to-English Generation Systems [13.10463139842285]
本報告では, 流速と精度のスコアを収集し, 誤りの分類を行う新しい評価結果について述べる。
本稿では,これらのシステムの相対的品質と,自動測定値との比較について論じる。
論文 参考訳(メタデータ) (2020-04-14T21:41:30Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。