論文の概要: INFACT: An Online Human Evaluation Framework for Conversational
Recommendation
- arxiv url: http://arxiv.org/abs/2209.03213v1
- Date: Wed, 7 Sep 2022 15:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:01:58.373353
- Title: INFACT: An Online Human Evaluation Framework for Conversational
Recommendation
- Title(参考訳): infact: 会話レコメンデーションのためのオンライン人間評価フレームワーク
- Authors: Ahtsham Manzoor, Dietmar jannach
- Abstract要約: 会話推薦システム(英: Conversational recommender system, CRS)は、マルチターン会話を通じてユーザのレコメンデーション関連目標を支援する対話型エージェントである。
機械学習に基づくCRSモデルに関する最近の研究は、評価プロセスにおける人間の重要性を認識している。
- 参考スコア(独自算出の注目度): 5.837881923712394
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conversational recommender systems (CRS) are interactive agents that support
their users in recommendation-related goals through multi-turn conversations.
Generally, a CRS can be evaluated in various dimensions. Today's CRS mainly
rely on offline(computational) measures to assess the performance of their
algorithms in comparison to different baselines. However, offline measures can
have limitations, for example, when the metrics for comparing a newly generated
response with a ground truth do not correlate with human perceptions, because
various alternative generated responses might be suitable too in a given dialog
situation. Current research on machine learning-based CRS models therefore
acknowledges the importance of humans in the evaluation process, knowing that
pure offline measures may not be sufficient in evaluating a highly interactive
system like a CRS.
- Abstract(参考訳): conversational recommender systems (crs) は対話型エージェントであり、マルチターン会話を通じてユーザーをレコメンデーションに関連した目標に支援する。
一般に、CRSは様々な次元で評価することができる。
今日のCRSは、主に、異なるベースラインと比較してアルゴリズムのパフォーマンスを評価するためのオフライン(計算)尺度に依存しています。
しかし、例えば、新たに生成された応答と地上の真実を比較するためのメトリクスが人間の知覚と相関しない場合、様々な代替の応答が与えられたダイアログの状況にも適している可能性があるため、オフライン測度には制限がある。
したがって、機械学習に基づくCRSモデルに関する現在の研究は、CRSのような高度にインタラクティブなシステムを評価するのに純粋なオフライン対策が十分でないことを知って、評価プロセスにおける人間の重要性を認めている。
関連論文リスト
- Stop Playing the Guessing Game! Target-free User Simulation for Evaluating Conversational Recommender Systems [15.481944998961847]
PEPPERは、実際のユーザインタラクション履歴とレビューから構築された、ターゲットフリーなユーザシミュレータによる評価プロトコルである。
PEPPERは、単純な推測ゲームに陥ることなく、現実的なユーザ-CRS対話を可能にする。
PEPPERは、CRSの嗜好誘発能力を包括的に評価するための詳細な尺度を提示する。
論文 参考訳(メタデータ) (2024-11-25T07:36:20Z) - PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - A Conversation is Worth A Thousand Recommendations: A Survey of Holistic
Conversational Recommender Systems [54.78815548652424]
会話レコメンデータシステムは対話的なプロセスを通じてレコメンデーションを生成する。
すべてのCRSアプローチが、インタラクションデータのソースとして人間の会話を使用するわけではない。
全体論的CRSは、現実世界のシナリオから収集された会話データを使って訓練される。
論文 参考訳(メタデータ) (2023-09-14T12:55:23Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - DEAM: Dialogue Coherence Evaluation using AMR-based Semantic
Manipulations [46.942369532632604]
不整合データ生成のためのAMRに基づく意味操作に依存する対話評価指標を提案する。
実験の結果,DEAMは基準法と比較して,人間の判断と高い相関性が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-18T03:11:35Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。