論文の概要: Offline and Online Satisfaction Prediction in Open-Domain Conversational
Systems
- arxiv url: http://arxiv.org/abs/2006.01921v1
- Date: Tue, 2 Jun 2020 20:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 23:55:05.298944
- Title: Offline and Online Satisfaction Prediction in Open-Domain Conversational
Systems
- Title(参考訳): オープンドメイン会話システムにおけるオフラインとオンライン満足度予測
- Authors: Jason Ingyu Choi, Ali Ahmadvand, Eugene Agichtein
- Abstract要約: 本研究では,オープンドメインの会話エージェントであるConvSATに特化して設計された会話満足度予測モデルを提案する。
ドメイン間で堅牢に操作するために、ConvSATは会話の複数の表現、すなわち会話履歴、発話と応答の内容、システム指向およびユーザ指向の行動シグナルを集約する。
実験の結果,ConvSATは,以前に報告した最先端アプローチと比較して,オフラインおよびオンライン両方のデータセットに対する満足度予測を著しく改善することがわかった。
- 参考スコア(独自算出の注目度): 10.576497782941697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting user satisfaction in conversational systems has become critical,
as spoken conversational assistants operate in increasingly complex domains.
Online satisfaction prediction (i.e., predicting satisfaction of the user with
the system after each turn) could be used as a new proxy for implicit user
feedback, and offers promising opportunities to create more responsive and
effective conversational agents, which adapt to the user's engagement with the
agent. To accomplish this goal, we propose a conversational satisfaction
prediction model specifically designed for open-domain spoken conversational
agents, called ConvSAT. To operate robustly across domains, ConvSAT aggregates
multiple representations of the conversation, namely the conversation history,
utterance and response content, and system- and user-oriented behavioral
signals. We first calibrate ConvSAT performance against state of the art
methods on a standard dataset (Dialogue Breakdown Detection Challenge) in an
online regime, and then evaluate ConvSAT on a large dataset of conversations
with real users, collected as part of the Alexa Prize competition. Our
experimental results show that ConvSAT significantly improves satisfaction
prediction for both offline and online setting on both datasets, compared to
the previously reported state-of-the-art approaches. The insights from our
study can enable more intelligent conversational systems, which could adapt in
real-time to the inferred user satisfaction and engagement.
- Abstract(参考訳): 会話システムにおけるユーザの満足度を予測することは、会話アシスタントがますます複雑なドメインで動作するため、重要になっている。
オンライン満足度予測(すなわち、各ターン後にシステムでユーザの満足度を予測する)は、暗黙のユーザフィードバックのための新しいプロキシとして使用することができ、より応答的で効果的な会話エージェントを作成する機会を提供する。
この目的を達成するために,オープンドメイン音声エージェントを対象とした会話満足度予測モデル(ConvSAT)を提案する。
ドメイン間で堅牢に操作するために、ConvSATは会話の複数の表現、すなわち会話履歴、発話と応答の内容、システム指向およびユーザ指向の行動シグナルを集約する。
まず、オンラインの標準データセット(Dialogue Breakdown Detection Challenge)上のアートメソッドの状態に対してConvSATのパフォーマンスを調整し、次に、Alexa Prizeコンペティションの一部として収集された実際のユーザとの対話の大規模なデータセット上でConvSATを評価する。
実験の結果,ConvSATは,以前に報告した最先端アプローチと比較して,オフラインおよびオンライン両方のデータセットに対する満足度予測を著しく改善することがわかった。
我々の研究から得られた洞察は、よりインテリジェントな会話システムを可能にし、推論されたユーザの満足度とエンゲージメントにリアルタイムで適応することができる。
関連論文リスト
- CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Detecting Agreement in Multi-party Conversational AI [2.755416211770089]
我々は,2人のユーザがトリビア・クイズをプレイできるように,多人数会話システムを提案する。
本システムは,最終回答に対するユーザの同意や不一致を検知し,それに応じて応答する。
私たちの注釈付きトランスクリプトと提案されたシステムのコードは、GitHubでオープンソースとして公開されています。
論文 参考訳(メタデータ) (2023-11-06T11:04:39Z) - Rating Prediction in Conversational Task Assistants with Behavioral and
Conversational-Flow Features [6.188306785668896]
本稿では,会話フロー機能とユーザ行動機能を組み合わせてユーザ評価を予測するトランスフォーマーモデルTB-Raterを提案する。
特に、Alexa TaskBotチャレンジで収集された実際のヒューマンエージェントの会話とレーティングを使用します。
本結果は,オフライン評価予測のための1つのモデルにおいて,会話の対話フローと行動的側面の両方をモデル化する利点を示す。
論文 参考訳(メタデータ) (2023-09-20T13:34:03Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - A Transformer-Based User Satisfaction Prediction for Proactive
Interaction Mechanism in DuerOS [12.060990859604681]
そこで本研究では,ユーザに対して提示する前に,ユーザの満足度とユーザの反応を予測できる能動的インタラクション機構を提案する。
ユーザが予測に応じて満足できない場合、システムはユーザの本当の意図を決定するのに適した質問をユーザに尋ねる。
当社のモデルをDuerOS上に展開・評価し,ユーザ満足度予測の精度に対する19%の相対的改善と,ユーザエクスペリエンスに対する2.3%の相対的改善を観察した。
論文 参考訳(メタデータ) (2022-12-05T09:17:49Z) - Interacting with Non-Cooperative User: A New Paradigm for Proactive
Dialogue Policy [83.61404191470126]
インタラクティブな環境下でプロアクティブなポリシーを学習できるI-Proという新しいソリューションを提案する。
具体的には,4つの要因からなる学習目標重みを通じてトレードオフを学習する。
実験の結果,I-Proは,有効性と解釈性において,ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-04-07T14:11:31Z) - Partner Matters! An Empirical Study on Fusing Personas for Personalized
Response Selection in Retrieval-Based Chatbots [51.091235903442715]
本稿では,自己とパートナーの話者が応答選択の課題に与える影響について検討する。
4つのペルソナ融合戦略が設計されており、異なる方法でペルソナがコンテキストや応答と相互作用することを前提としている。
Persona-Chatデータセットに関する実証研究は、パートナーペルソナが応答選択の精度を向上させることができることを示している。
論文 参考訳(メタデータ) (2021-05-19T10:32:30Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。