論文の概要: Revealing User Familiarity Bias in Task-Oriented Dialogue via
Interactive Evaluation
- arxiv url: http://arxiv.org/abs/2305.13857v1
- Date: Tue, 23 May 2023 09:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:25:58.620672
- Title: Revealing User Familiarity Bias in Task-Oriented Dialogue via
Interactive Evaluation
- Title(参考訳): 対話的評価によるタスク指向対話におけるユーザ親和性バイアスの探索
- Authors: Takyoung Kim, Jamin Shin, Young-Ho Kim, Sanghwan Bae, Sungdong Kim
- Abstract要約: 我々は,現実的なシナリオに対して,TODシステムがいかに脆弱であるかを明らかにするために,インタラクティブなユーザスタディを実施している。
我々の研究は、オープンゴール設定での会話がシステムの破滅的な失敗につながることを明らかにした。
我々は,システムの能力を超えても,システムがユーザの要求を処理するふりをする,新たな“予測”行動を発見した。
- 参考スコア(独自算出の注目度): 8.96916785542554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most task-oriented dialogue (TOD) benchmarks assume users that know exactly
how to use the system by constraining the user behaviors within the system's
capabilities via strict user goals, namely "user familiarity" bias. This data
bias deepens when it combines with data-driven TOD systems, as it is impossible
to fathom the effect of it with existing static evaluations. Hence, we conduct
an interactive user study to unveil how vulnerable TOD systems are against
realistic scenarios. In particular, we compare users with 1) detailed goal
instructions that conform to the system boundaries (closed-goal) and 2) vague
goal instructions that are often unsupported but realistic (open-goal). Our
study reveals that conversations in open-goal settings lead to catastrophic
failures of the system, in which 92% of the dialogues had significant issues.
Moreover, we conduct a thorough analysis to identify distinctive features
between the two settings through error annotation. From this, we discover a
novel "pretending" behavior, in which the system pretends to handle the user
requests even though they are beyond the system's capabilities. We discuss its
characteristics and toxicity while emphasizing transparency and a fallback
strategy for robust TOD systems.
- Abstract(参考訳): ほとんどのタスク指向対話(TOD)ベンチマークでは、システムの機能内でのユーザ動作を厳格なユーザ目標、すなわち"ユーザ親しみ"バイアスによって制限することで、システムの使用方法を正確に知るユーザを前提としている。
このデータバイアスは、データ駆動のtodシステムと組み合わせると深くなり、既存の静的評価とデータの影響を相殺することは不可能である。
そこで本研究では,現実シナリオに対するTODシステムの脆弱性を明らかにするために,インタラクティブなユーザスタディを実施している。
特にユーザとユーザを比較します
1)システムの境界(閉じたゴール)に適合する詳細な目標指示
2) しばしばサポートされないが現実的な(オープンゴール)曖昧な目標指示。
本研究は,対話の92%が重大な問題を抱えたシステムにおいて,オープンゴール環境での会話が壊滅的な失敗に繋がることを明らかにした。
さらに,エラーアノテーションによる2つの設定間の特徴を特定するために,徹底的な解析を行う。
このことから,システムの機能を超えても,システムがユーザの要求を処理するように振る舞う,新たな“予測”行動が発見された。
todシステムの透明性とフォールバック戦略を強調しながら,その特性と毒性について考察する。
関連論文リスト
- Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - A Transformer-Based User Satisfaction Prediction for Proactive
Interaction Mechanism in DuerOS [12.060990859604681]
そこで本研究では,ユーザに対して提示する前に,ユーザの満足度とユーザの反応を予測できる能動的インタラクション機構を提案する。
ユーザが予測に応じて満足できない場合、システムはユーザの本当の意図を決定するのに適した質問をユーザに尋ねる。
当社のモデルをDuerOS上に展開・評価し,ユーザ満足度予測の精度に対する19%の相対的改善と,ユーザエクスペリエンスに対する2.3%の相対的改善を観察した。
論文 参考訳(メタデータ) (2022-12-05T09:17:49Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - User Satisfaction Estimation with Sequential Dialogue Act Modeling in
Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。
USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。
4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-07T02:50:07Z) - Advances and Challenges in Conversational Recommender Systems: A Survey [133.93908165922804]
現在の会話レコメンダーシステム(CRS)で使用されるテクニックの体系的なレビューを提供します。
CRS開発の主な課題を5つの方向にまとめます。
これらの研究の方向性は、情報検索(IR)、自然言語処理(NLP)、人間とコンピュータの相互作用(HCI)などの複数の研究分野を含みます。
論文 参考訳(メタデータ) (2021-01-23T08:53:15Z) - NUANCED: Natural Utterance Annotation for Nuanced Conversation with
Estimated Distributions [36.00476428803116]
本研究では,ユーザ中心の対話システムの構築を試みる。
まず,ユーザの好みをシステムオントロジー上の推定分布としてモデル化し,ユーザの発話をそのような分布にマッピングする。
我々は、会話レコメンデーションのための現実的な設定に焦点を当てたNUANCEDという新しいデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-24T03:23:14Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。