論文の概要: CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2403.19056v1
- Date: Wed, 27 Mar 2024 23:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:42:20.370961
- Title: CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems
- Title(参考訳): CAUSE:タスク指向対話システムにおけるユーザ満足度推定の非現実的評価
- Authors: Amin Abolghasemi, Zhaochun Ren, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke, Suzan Verberne,
- Abstract要約: 我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
- 参考スコア(独自算出の注目度): 60.27663010453209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important unexplored aspect in previous work on user satisfaction estimation for Task-Oriented Dialogue (TOD) systems is their evaluation in terms of robustness for the identification of user dissatisfaction: current benchmarks for user satisfaction estimation in TOD systems are highly skewed towards dialogues for which the user is satisfied. The effect of having a more balanced set of satisfaction labels on performance is unknown. However, balancing the data with more dissatisfactory dialogue samples requires further data collection and human annotation, which is costly and time-consuming. In this work, we leverage large language models (LLMs) and unlock their ability to generate satisfaction-aware counterfactual dialogues to augment the set of original dialogues of a test collection. We gather human annotations to ensure the reliability of the generated samples. We evaluate two open-source LLMs as user satisfaction estimators on our augmented collection against state-of-the-art fine-tuned models. Our experiments show that when used as few-shot user satisfaction estimators, open-source LLMs show higher robustness to the increase in the number of dissatisfaction labels in the test collection than the fine-tuned state-of-the-art models. Our results shed light on the need for data augmentation approaches for user satisfaction estimation in TOD systems. We release our aligned counterfactual dialogues, which are curated by human annotation, to facilitate further research on this topic.
- Abstract(参考訳): タスク指向対話(TOD)システムにおけるユーザ満足度推定に関するこれまでの研究において、ユーザ満足度推定に関する重要な未探索の側面は、ユーザ不満の識別のための堅牢性の観点からの評価である。
よりバランスの取れた満足度ラベルがパフォーマンスに与える影響は分かっていない。
しかし、データとより満足のいく対話サンプルのバランスをとるには、さらなるデータ収集と人的アノテーションが必要である。
本研究では,大規模言語モデル(LLM)を活用して,満足度を考慮した対実対話を生成して,テストコレクションの原文対話の集合を拡張する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
我々は2つのオープンソースLCMを,最先端の微調整モデルに対する拡張コレクションのユーザ満足度推定器として評価した。
実験の結果, オープンソースのLCMは, ユーザ満足度推定器として使用した場合, テストコレクションにおける不満ラベルの増加に対して, 微調整モデルよりもロバスト性が高いことがわかった。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
我々は、人間のアノテーションによってキュレートされた、協調した対実対話を公開し、この話題についてさらなる研究を促進する。
関連論文リスト
- Large Language Models as User-Agents for Evaluating Task-Oriented-Dialogue Systems [6.8738526619759535]
タスク指向対話(TOD)モデルを評価するために、オフラインデータセットが使用されている。
コンテキスト対応のユーザエージェントは、人間の会話の多様性と予測不能をシミュレートすることができる。
論文 参考訳(メタデータ) (2024-11-15T06:05:45Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models [35.95405294377247]
既成のMLモデルやテキスト埋め込みに基づくアプローチは、一般化可能なパターンの抽出に不足している。
LLMは、埋め込み型アプローチよりも、自然言語の発話から、ユーザの満足度を解釈可能なシグナルを抽出できることを示す。
論文 参考訳(メタデータ) (2024-03-19T02:57:07Z) - Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Modeling User Satisfaction Dynamics in Dialogue via Hawkes Process [17.477718698071424]
本稿では,ターン間のユーザ満足度をイベントシーケンスとして扱う新しい推定器を提案し,このシーケンスのダイナミクスを効果的にモデル化するためにホークスプロセスを用いる。
4つのベンチマーク対話データセットによる実験結果から、ASAPは最先端のベースライン推定器を大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-05-21T23:04:14Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。