Fugu-MT 論文翻訳(概要): PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison

論文の概要: PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison

arxiv url: http://arxiv.org/abs/2404.01015v2
Date: Thu, 18 Jul 2024 02:00:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 21:01:57.108505
Title: PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison
Title（参考訳）: PairEval: ペアワイズ比較によるオープンドメイン対話の評価
Authors: ChaeHun Park, Minseok Choi, Dohyun Lee, Jaegul Choo,
Abstract要約: PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。 PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
参考スコア（独自算出の注目度）: 38.03304773600225
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Building a reliable and automated evaluation metric is a necessary but challenging problem for open-domain dialogue systems. Recent studies proposed evaluation metrics that assess generated responses by considering their relevance to previous dialogue histories. Although effective, these metrics evaluate individual responses directly rather than considering their relative quality compared to other responses. To handle this, we propose PairEval, a novel dialogue evaluation metric for assessing responses by comparing their quality against responses in different conversations. PairEval is built on top of open-sourced and moderate-size language models, and we make them specialized in pairwise comparison between dialogue responses. Extensive experiments on multiple benchmarks demonstrate that our metric exhibits a higher correlation with human judgments than baseline metrics. We also find that the proposed comparative metric is more robust in detecting common failures from open-domain dialogue systems, including repetition and speaker insensitivity.
Abstract（参考訳）: オープンドメイン対話システムには,信頼性と自動評価基準の構築が不可欠だが難しい課題である。近年の研究では、過去の対話履歴との関連性を考慮して、生成した応答を評価する評価指標が提案されている。有効ではあるが、これらの指標は他の反応と比較して相対的な品質を考慮せず、個々の反応を直接評価する。そこで本研究では,異なる会話における応答に対する応答の質を比較することで,応答を評価する新しい対話評価指標であるPairEvalを提案する。 PairEvalは、オープンソースの言語モデルと中規模言語モデルに基づいて構築されており、対話応答のペアワイズ比較に特化させる。複数のベンチマークでの大規模な実験により、我々の測定値が基準値よりも人間の判断と高い相関を示すことが示された。また、提案手法は、繰り返しや話者の不感度を含むオープンドメイン対話システムからの共通障害の検出において、より堅牢であることがわかった。

関連論文リスト

Measuring the Robustness of Reference-Free Dialogue Evaluation Systems [12.332146893333952]
敵攻撃の4つのカテゴリに対して,参照自由対話メトリクスの堅牢性を評価するためのベンチマークを示す。 DialogRPT、UniEval、PromptEvalなどのメトリクスを、地上および地下のデータセットで分析する。
論文参考訳（メタデータ） (2025-01-12T06:41:52Z)
CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5428962271088]
本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-25T06:08:16Z)
ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。 ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文参考訳（メタデータ） (2024-06-17T05:51:04Z)
Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文参考訳（メタデータ） (2022-12-18T22:07:55Z)
FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文参考訳（メタデータ） (2022-10-25T08:26:03Z)
User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文参考訳（メタデータ） (2021-11-16T22:19:17Z)
DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文参考訳（メタデータ） (2021-06-02T12:23:18Z)
Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文参考訳（メタデータ） (2021-05-06T10:30:13Z)
Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文参考訳（メタデータ） (2020-05-01T20:01:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。