論文の概要: REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation
- arxiv url: http://arxiv.org/abs/2105.14488v1
- Date: Sun, 30 May 2021 10:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 10:22:02.787967
- Title: REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation
- Title(参考訳): REAM$\sharp$:オープンドメインダイアログ生成のための参照ベース評価指標の拡張アプローチ
- Authors: Jun Gao, Wei Bi, Ruifeng Xu and Shuming Shi
- Abstract要約: オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
- 参考スコア(独自算出の注目度): 63.46331073232526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of reliable automatic evaluation metrics is a major impediment to
the development of open-domain dialogue systems. Various reference-based
metrics have been proposed to calculate a score between a predicted response
and a small set of references. However, these metrics show unsatisfactory
correlations with human judgments. For a reference-based metric, its
reliability mainly depends on two factors: its ability to measure the
similarity between the predicted response and the reference response, as well
as the reliability of the given reference set. Yet, there are few discussions
on the latter. Our work attempts to fill this vacancy. We first clarify an
assumption on reference-based metrics that, if more high-quality references are
added into the reference set, the reliability of the metric will increase.
Next, we present REAM$\sharp$: an enhancement approach to Reference-based
EvAluation Metrics for open-domain dialogue systems. A prediction model is
designed to estimate the reliability of the given reference set. We show how
its predicted results can be helpful to augment the reference set, and thus
improve the reliability of the metric. Experiments validate both the
effectiveness of our prediction model and that the reliability of
reference-based metrics improves with the augmented reference sets.
- Abstract(参考訳): 信頼性の高い自動評価指標の欠如は、オープンドメイン対話システムの開発に大きな障害となる。
予測応答と少ない参照集合の間のスコアを計算するために、様々な基準ベースのメトリクスが提案されている。
しかし、これらの指標は人間の判断と不満足な相関を示す。
基準に基づく計量では、その信頼性は主に、予測応答と基準応答の類似性を測定する能力と、与えられた基準集合の信頼性の2つの要因に依存する。
しかし、後者については議論がほとんどない。
私たちの仕事はこの空き地を埋めようとしている。
まず、基準セットにより高品質な参照を追加すれば、基準の信頼性が向上するという、基準ベースのメトリクスの仮定を明確にする。
次に、オープンドメイン対話システムのための参照ベースのEvAluation Metricsへの拡張アプローチREAM$\sharp$を提案する。
予測モデルは、与えられた参照集合の信頼性を推定するために設計される。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
予測モデルの有効性と参照ベースメトリクスの信頼性が拡張参照セットにより向上することを示す実験を行った。
関連論文リスト
- Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics [4.881135687863645]
我々は,人間の評価値とよく相関する基準のないメトリクスを導入し,計算が極めて安価である。
また,低品質の参照設定におけるロバスト性を改善するために,基準ベースのメトリクスと併用することも示している。
論文 参考訳(メタデータ) (2024-10-08T11:09:25Z) - Towards an Improved Metric for Evaluating Disentangled Representations [0.6946415403594184]
切り離された表現学習は、表現を制御可能、解釈可能、転送可能にする上で重要な役割を果たす。
領域におけるその重要性にもかかわらず、信頼性と一貫した量的絡み合い計量の探求は依然として大きな課題である。
そこで本稿では, 直感的概念の強調と係数-符号関係の改善を生かしたemphEDIという測度を導入することにより, 絡み合いの定量化のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-04T00:32:59Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - DocAsRef: An Empirical Study on Repurposing Reference-Based Summary
Quality Metrics Reference-Freely [29.4981129248937]
そこで本論文では,参照に基づくメトリクスを効果的に適用して,対応する参照に対してシステム概要を評価することを提案する。
ゼロショットのBERTScoreは、参照フリーで再利用された後、オリジナルの参照ベースバージョンよりも一貫してパフォーマンスが向上した。
GPT-3.5に基づくゼロショット要約評価器と密接に競合する。
論文 参考訳(メタデータ) (2022-12-20T06:01:13Z) - Spurious Correlations in Reference-Free Evaluation of Text Generation [35.80256755393739]
本研究では,要約とダイアログ生成の基準フリー評価指標が,単語重複,パープレキシティ,長さなどの指標と急激な相関に依拠していることを示す。
評価指標を明示的に設計し,参照不要な評価の急激な特徴を避けることで,これらの誤差を軽減できることを実証する。
論文 参考訳(メタデータ) (2022-04-21T05:32:38Z) - Revisiting the Evaluation Metrics of Paraphrase Generation [35.6803390044542]
多くの既存のパラフレーズ生成モデルは、生成されたパラフレーズを評価するために参照ベースのメトリクスを使用する。
本稿では、生成されたパラフレーズの品質を反映できる参照フリーメトリックであるBBScoreを提案する。
論文 参考訳(メタデータ) (2022-02-17T07:18:54Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。