論文の概要: Human-Paraphrased References Improve Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2010.10245v1
- Date: Tue, 20 Oct 2020 13:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:01:53.297829
- Title: Human-Paraphrased References Improve Neural Machine Translation
- Title(参考訳): ヒューマンパラフレーズ参照によるニューラルマシン翻訳の改善
- Authors: Markus Freitag, George Foster, David Grangier, Colin Cherry
- Abstract要約: パラフレーズ参照へのチューニングは、人間の判断によりかなり良いシステムを生み出すことを示す。
我々の研究は、パラフレーズ参照が人間の判断と相関する指標となることを確認する。
- 参考スコア(独自算出の注目度): 33.86920777067357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation comparing candidate translations to human-generated
paraphrases of reference translations has recently been proposed by Freitag et
al. When used in place of original references, the paraphrased versions produce
metric scores that correlate better with human judgment. This effect holds for
a variety of different automatic metrics, and tends to favor natural
formulations over more literal (translationese) ones. In this paper we compare
the results of performing end-to-end system development using standard and
paraphrased references. With state-of-the-art English-German NMT components, we
show that tuning to paraphrased references produces a system that is
significantly better according to human judgment, but 5 BLEU points worse when
tested on standard references. Our work confirms the finding that paraphrased
references yield metric scores that correlate better with human judgment, and
demonstrates for the first time that using these scores for system development
can lead to significant improvements.
- Abstract(参考訳): freitagらによって最近提案されている参照翻訳の人間が生成したパラフレーズと候補翻訳を比較する自動評価法。
オリジナルの参照の代わりに使われる場合、パラフレーズ付きバージョンは人間の判断とよく相関するメートル法スコアを生成する。
この効果は様々な異なる自動測度を持ち、より多くのリテラル(翻訳)よりも自然な定式化を好む傾向がある。
本稿では,標準参照とパラフレーズ参照を用いたエンドツーエンドシステム開発の結果を比較する。
現状の英語-ドイツ語のNMTコンポーネントでは, パラフレーズ参照のチューニングにより, 人間の判断により有意に優れたシステムが得られるが, 5 BLEU は標準基準でテストするとさらに悪い。
本研究は, パラフレーズ参照が人間の判断と相関する基準値が得られることを確認し, システム開発にこれらのスコアを用いることで, 大幅な改善が期待できることを示す。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Not All Metrics Are Guilty: Improving NLG Evaluation with LLM
Paraphrasing [92.17776245159622]
Para-Refは、参照数を増やして評価ベンチマークを強化する新しい方法である。
我々は,大規模言語モデル(LLM)を用いて,単一の参照を多種多様な表現で複数の高品質なものに表現する。
提案手法は, 自動評価値16の相関を+7.82%の比率で効果的に改善することができる。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Language Model Augmented Relevance Score [2.8314622515446835]
Language Model Augmented Relevance Score (MARS)は、NLG評価のための新しい文脈対応メトリックである。
MARSは、強化学習によってガイドされる既製の言語モデルを使用して、生成コンテキストと利用可能な人間の参照の両方を考慮した拡張参照を生成する。
論文 参考訳(メタデータ) (2021-08-19T03:59:23Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - A Human Evaluation of AMR-to-English Generation Systems [13.10463139842285]
本報告では, 流速と精度のスコアを収集し, 誤りの分類を行う新しい評価結果について述べる。
本稿では,これらのシステムの相対的品質と,自動測定値との比較について論じる。
論文 参考訳(メタデータ) (2020-04-14T21:41:30Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。