論文の概要: Online vs Offline: A Comparative Study of First-Party and Third-Party Evaluations of Social Chatbots
- arxiv url: http://arxiv.org/abs/2409.07823v1
- Date: Thu, 12 Sep 2024 08:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 17:18:01.300713
- Title: Online vs Offline: A Comparative Study of First-Party and Third-Party Evaluations of Social Chatbots
- Title(参考訳): オンライン対オフライン:ソーシャルチャットボットの第一部と第三部の比較研究
- Authors: Ekaterina Svikhnushina, Pearl Pu,
- Abstract要約: ユーザダイアログのベンチマークデータセットを,オフラインなサードパーティ評価を備えた共感型チャットボットで拡張する。
この結果から,ヒトとチャットボットの相互作用の微妙さをオフラインで評価することは不可能であることが判明した。
対照的に、GPT-4モデルを用いた自動第三者評価は、第三者の人間の判断をよりよく近似する。
- 参考スコア(独自算出の注目度): 9.86791451351345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the efficacy of online versus offline evaluation methods in assessing conversational chatbots, specifically comparing first-party direct interactions with third-party observational assessments. By extending a benchmarking dataset of user dialogs with empathetic chatbots with offline third-party evaluations, we present a systematic comparison between the feedback from online interactions and the more detached offline third-party evaluations. Our results reveal that offline human evaluations fail to capture the subtleties of human-chatbot interactions as effectively as online assessments. In comparison, automated third-party evaluations using a GPT-4 model offer a better approximation of first-party human judgments given detailed instructions. This study highlights the limitations of third-party evaluations in grasping the complexities of user experiences and advocates for the integration of direct interaction feedback in conversational AI evaluation to enhance system development and user satisfaction.
- Abstract(参考訳): 本稿では,対話型チャットボットの評価におけるオンラインとオフラインによる評価手法の有効性について検討する。
ユーザダイアログのベンチマークデータセットをオフラインの第三者評価で拡張することにより、オンラインインタラクションからのフィードバックと、より分離されたオフラインの第三者評価とを体系的に比較する。
その結果、オフラインの人間による評価は、人間とチャットボットの相互作用の微妙さを、オンラインアセスメントと同じくらい効果的に捉えられないことが明らかとなった。
対照的に、GPT-4モデルを用いた自動第三者評価は、詳細な指示を受けた第三者の判断をよりよく近似する。
本研究は,ユーザエクスペリエンスの複雑さの把握における第三者評価の限界を強調し,システム開発とユーザ満足度を高めるために,会話型AI評価における直接インタラクションフィードバックの統合を提唱する。
関連論文リスト
- Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Rethinking Response Evaluation from Interlocutor's Eye for Open-Domain
Dialogue Systems [14.98159964397052]
我々は,自動応答評価器に必要とされる機能について,対話者の視点から分析・検討した。
Hazumiデータセットの最初の実験では、自動応答評価をインターロケータの判断と相関させる上で、インターロケータ認識が重要な役割を担っていることが明らかとなった。
X(元Twitter)での大規模な会話を用いた2回目の実験では、対話継続性予測が人間からのフィードバックなしにインターロケータ対応評価器を訓練できることが確認された。
論文 参考訳(メタデータ) (2024-01-04T13:15:41Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - INFACT: An Online Human Evaluation Framework for Conversational
Recommendation [5.837881923712394]
会話推薦システム(英: Conversational recommender system, CRS)は、マルチターン会話を通じてユーザのレコメンデーション関連目標を支援する対話型エージェントである。
機械学習に基づくCRSモデルに関する最近の研究は、評価プロセスにおける人間の重要性を認識している。
論文 参考訳(メタデータ) (2022-09-07T15:16:59Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Partner Matters! An Empirical Study on Fusing Personas for Personalized
Response Selection in Retrieval-Based Chatbots [51.091235903442715]
本稿では,自己とパートナーの話者が応答選択の課題に与える影響について検討する。
4つのペルソナ融合戦略が設計されており、異なる方法でペルソナがコンテキストや応答と相互作用することを前提としている。
Persona-Chatデータセットに関する実証研究は、パートナーペルソナが応答選択の精度を向上させることができることを示している。
論文 参考訳(メタデータ) (2021-05-19T10:32:30Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。