論文の概要: Revisiting the Evaluation Metrics of Paraphrase Generation
- arxiv url: http://arxiv.org/abs/2202.08479v1
- Date: Thu, 17 Feb 2022 07:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-19 00:21:20.221376
- Title: Revisiting the Evaluation Metrics of Paraphrase Generation
- Title(参考訳): パラフレーズ生成の評価基準の再検討
- Authors: Lingfeng Shen, Haiyun Jiang, Lemao Liu, Shuming Shi
- Abstract要約: 多くの既存のパラフレーズ生成モデルは、生成されたパラフレーズを評価するために参照ベースのメトリクスを使用する。
本稿では、生成されたパラフレーズの品質を反映できる参照フリーメトリックであるBBScoreを提案する。
- 参考スコア(独自算出の注目度): 35.6803390044542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Paraphrase generation is an important NLP task that has achieved significant
progress recently. However, one crucial problem is overlooked, `how to evaluate
the quality of paraphrase?'. Most existing paraphrase generation models use
reference-based metrics (e.g., BLEU) from neural machine translation (NMT) to
evaluate their generated paraphrase. Such metrics' reliability is hardly
evaluated, and they are only plausible when there exists a standard reference.
Therefore, this paper first answers one fundamental question, `Are existing
metrics reliable for paraphrase generation?'. We present two conclusions that
disobey conventional wisdom in paraphrasing generation: (1) existing metrics
poorly align with human annotation in system-level and segment-level paraphrase
evaluation. (2) reference-free metrics outperform reference-based metrics,
indicating that the standard references are unnecessary to evaluate the
paraphrase's quality. Such empirical findings expose a lack of reliable
automatic evaluation metrics. Therefore, this paper proposes BBScore, a
reference-free metric that can reflect the generated paraphrase's quality.
BBScore consists of two sub-metrics: S3C score and SelfBLEU, which correspond
to two criteria for paraphrase evaluation: semantic preservation and diversity.
By connecting two sub-metrics, BBScore significantly outperforms existing
paraphrase evaluation metrics.
- Abstract(参考訳): パラフレーズ生成は近年大きな進歩を遂げた重要なNLPタスクである。
しかし、重要な問題の一つが「パラフレーズの品質をどのように評価するか?」である。
ほとんどの既存のパラフレーズ生成モデルは、ニューラルネットワーク翻訳(NMT)から参照ベースのメトリクス(BLEUなど)を使用して、生成されたパラフレーズを評価する。
このようなメトリクスの信頼性はほとんど評価されておらず、標準参照が存在する場合にのみ妥当である。
そこで本稿では,まず「既存のメトリクスはパラフレーズ生成に信頼性があるか?」という問いに答える。
パラフレーズ生成における従来の知恵に反する2つの結論を提示する。(1)システムレベルとセグメントレベルのパラフレーズ評価において、既存のメトリクスは人間のアノテーションと不一致である。
2) 基準のないメトリクスは基準ベースのメトリクスよりも優れており、パラフレーズの品質を評価するのに標準参照は不要であることを示している。
このような経験的発見は、信頼性の高い自動評価指標の欠如を露呈する。
そこで本稿では,生成したパラフレーズの品質を反映した参照フリーメトリックであるBBScoreを提案する。
BBScoreはS3CスコアとSelfBLEUの2つのサブメトリックから構成されており、これは意味的保存と多様性の2つの基準に対応する。
2つのサブメトリックを接続することで、BBScoreは既存のパラフレーズ評価指標を大幅に上回る。
関連論文リスト
- Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics [4.881135687863645]
我々は,人間の評価値とよく相関する基準のないメトリクスを導入し,計算が極めて安価である。
また,低品質の参照設定におけるロバスト性を改善するために,基準ベースのメトリクスと併用することも示している。
論文 参考訳(メタデータ) (2024-10-08T11:09:25Z) - Reference-based Metrics Disprove Themselves in Question Generation [17.83616985138126]
人手による参照を用いることで、参照ベースのメトリクスの有効性を保証できないことがわかった。
優れた測定基準は、生成した質問に比較して、人間公認の質問を格付けすることが期待されている。
本研究では, 自然性, 応答性, 複雑性などの多次元的基準からなる基準自由度尺度を提案する。
論文 参考訳(メタデータ) (2024-03-18T20:47:10Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - Understanding Metrics for Paraphrasing [13.268278150775]
本稿では, パラフレーズの品質を, 精度, ノベルティ, フラエンシの次元に沿って測定するために, 新規な指標であるROUGE_P$を提案する。
優れたパラフレーズの生成と評価に何が必要なのかをより深く理解するために、メトリクスのレンズからのパラフレーズモデルの微調整と生成について検討する。
論文 参考訳(メタデータ) (2022-05-26T03:03:16Z) - Language Model Augmented Relevance Score [2.8314622515446835]
Language Model Augmented Relevance Score (MARS)は、NLG評価のための新しい文脈対応メトリックである。
MARSは、強化学習によってガイドされる既製の言語モデルを使用して、生成コンテキストと利用可能な人間の参照の両方を考慮した拡張参照を生成する。
論文 参考訳(メタデータ) (2021-08-19T03:59:23Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。