論文の概要: PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems
- arxiv url: http://arxiv.org/abs/2004.02399v1
- Date: Mon, 6 Apr 2020 04:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:38:00.720520
- Title: PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems
- Title(参考訳): pone:オープンドメイン生成対話システムのための新しい自動評価指標
- Authors: Tian Lan, Xian-Ling Mao, Wei Wei, Xiaoyan Gao, Heyan Huang
- Abstract要約: オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
- 参考スコア(独自算出の注目度): 48.99561874529323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain generative dialogue systems have attracted considerable attention
over the past few years. Currently, how to automatically evaluate them, is
still a big challenge problem. As far as we know, there are three kinds of
automatic methods to evaluate the open-domain generative dialogue systems: (1)
Word-overlap-based metrics; (2) Embedding-based metrics; (3) Learning-based
metrics. Due to the lack of systematic comparison, it is not clear which kind
of metrics are more effective. In this paper, we will first measure
systematically all kinds of automatic evaluation metrics over the same
experimental setting to check which kind is best. Through extensive
experiments, the learning-based metrics are demonstrated that they are the most
effective evaluation metrics for open-domain generative dialogue systems.
Moreover, we observe that nearly all learning-based metrics depend on the
negative sampling mechanism, which obtains an extremely imbalanced and
low-quality dataset to train a score model. In order to address this issue, we
propose a novel and feasible learning-based metric that can significantly
improve the correlation with human judgments by using augmented POsitive
samples and valuable NEgative samples, called PONE. Extensive experiments
demonstrate that our proposed evaluation method significantly outperforms the
state-of-the-art learning-based evaluation methods, with an average correlation
improvement of 13.18%. In addition, we have publicly released the codes of our
proposed method and state-of-the-art baselines.
- Abstract(参考訳): オープンドメイン生成対話システムはここ数年で注目されている。
現在、それらを自動的に評価する方法は、依然として大きな問題です。
私たちが知る限り、オープンドメイン生成対話システムの評価には、(1)ワードオーバーラップベースのメトリクス、(2)埋め込みベースのメトリクス、(3)学習ベースのメトリクスの3種類がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,まず,同じ実験環境における全ての自動評価指標を系統的に測定し,どの指標が最適かを確認する。
広範にわたる実験を通して、学習に基づくメトリクスは、オープンドメイン生成対話システムにおいて最も効果的な評価指標であることを示した。
さらに,学習に基づく指標のほとんどすべてが負のサンプリング機構に依存しており,スコアモデルをトレーニングするために,非常に不均衡で低品質なデータセットを得る。
そこで本研究では,ヒトの判断と有意な相関関係を呈し,有意な正のサンプルと有意な負のサンプルを用いて有意に改善できる,新しい学習ベース指標を提案する。
広範な実験により,提案手法が最先端の学習に基づく評価手法を有意に上回り,平均相関率が13.18%となった。
また,提案手法と最先端のベースラインのコードも公開している。
関連論文リスト
- How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Using Active Learning Methods to Strategically Select Essays for
Automated Scoring [0.0]
本研究の目的は,3つのアクティブラーニング手法を記述し,評価することである。
3つのアクティブな学習方法は不確実性に基づく、トポロジに基づく、ハイブリッドな方法である。
これら3つの手法はいずれも強い結果をもたらし、トポロジカルな手法は最も効率的な分類を生み出した。
論文 参考訳(メタデータ) (2023-01-02T12:46:10Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。