論文の概要: DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation
- arxiv url: http://arxiv.org/abs/2305.04720v2
- Date: Thu, 25 May 2023 11:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 20:07:37.411453
- Title: DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation
- Title(参考訳): Density: 密度推定を用いたオープンドメイン対話評価指標
- Authors: ChaeHun Park, Seungil Chad Lee, Daniel Rim, and Jaegul Choo
- Abstract要約: ニューラル分類器から得られる特徴空間の密度推定を利用して応答を評価するDernityを提案する。
我々の測定基準は、人間の会話の分布にどれだけ反応が現れるかを測定する。
- 参考スコア(独自算出の注目度): 24.224114300690758
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the recent advances in open-domain dialogue systems, building a
reliable evaluation metric is still a challenging problem. Recent studies
proposed learnable metrics based on classification models trained to
distinguish the correct response. However, neural classifiers are known to make
overly confident predictions for examples from unseen distributions. We propose
DEnsity, which evaluates a response by utilizing density estimation on the
feature space derived from a neural classifier. Our metric measures how likely
a response would appear in the distribution of human conversations. Moreover,
to improve the performance of DEnsity, we utilize contrastive learning to
further compress the feature space. Experiments on multiple response evaluation
datasets show that DEnsity correlates better with human evaluations than the
existing metrics. Our code is available at https://github.com/ddehun/DEnsity.
- Abstract(参考訳): 近年のオープンドメイン対話システムの発展にもかかわらず、信頼性の高い評価基準の構築は依然として困難な問題である。
近年の研究では、正しい応答を識別するために訓練された分類モデルに基づく学習可能なメトリクスが提案されている。
しかし、神経分類器は、見当たらない分布から例を過度に自信を持って予測することが知られている。
本稿では,神経分類器から導出される特徴空間の密度推定を利用して応答を評価する密度を提案する。
我々の測定基準は、人間の会話の分布にどれだけ反応が現れるかを測定する。
さらに、Dernityの性能を向上させるために、コントラスト学習を利用して特徴空間をさらに圧縮する。
複数の応答評価データセットの実験により、Dnsityは既存の指標よりも人間の評価と相関していることが示された。
私たちのコードはhttps://github.com/ddehun/densityで利用可能です。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Improving Dialog Evaluation with a Multi-reference Adversarial Dataset
and Large Scale Pretraining [18.174086416883412]
i) コンテキストごとに5つの関連する応答と,(ii) コンテキスト毎に無関係な応答を5つの対向的に作成するDailyDialog++データセットを導入する。
複数の正しい参照が存在する場合でも、n-gramベースのメトリクスと埋め込みベースのメトリクスは、関連する応答をランダムな負と区別するのにうまく機能しないことを示す。
DEBと呼ばれる新しいBERTベースの評価指標を提案し、これはRedditの7億2700万の会話で事前トレーニングされ、データセットで微調整される。
論文 参考訳(メタデータ) (2020-09-23T18:06:52Z) - Neural Methods for Point-wise Dependency Estimation [129.93860669802046]
我々は,2つの結果が共起する確率を定量的に測定する点依存度(PD)の推定に焦点をあてる。
提案手法の有効性を,1)MI推定,2)自己教師付き表現学習,3)クロスモーダル検索タスクで示す。
論文 参考訳(メタデータ) (2020-06-09T23:26:15Z) - Calibrated neighborhood aware confidence measure for deep metric
learning [0.0]
深度メートル法学習は、数ショット学習、画像検索、およびオープンセット分類の問題にうまく適用されてきた。
深層学習モデルの信頼度を測定し、信頼できない予測を特定することは、まだオープンな課題です。
本稿では,その分類精度をよく反映した校正・解釈可能な信頼度尺度の定義に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-08T21:05:38Z) - Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。
我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。
結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文 参考訳(メタデータ) (2020-01-10T20:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。