Fugu-MT 論文翻訳(概要): Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation

論文の概要: Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation

arxiv url: http://arxiv.org/abs/2305.13857v1
Date: Tue, 23 May 2023 09:24:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 17:25:58.620672
Title: Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation
Title（参考訳）: 対話的評価によるタスク指向対話におけるユーザ親和性バイアスの探索
Authors: Takyoung Kim, Jamin Shin, Young-Ho Kim, Sanghwan Bae, Sungdong Kim
Abstract要約: 我々は,現実的なシナリオに対して,TODシステムがいかに脆弱であるかを明らかにするために,インタラクティブなユーザスタディを実施している。我々の研究は、オープンゴール設定での会話がシステムの破滅的な失敗につながることを明らかにした。我々は,システムの能力を超えても,システムがユーザの要求を処理するふりをする,新たな“予測”行動を発見した。
参考スコア（独自算出の注目度）: 8.96916785542554
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most task-oriented dialogue (TOD) benchmarks assume users that know exactly how to use the system by constraining the user behaviors within the system's capabilities via strict user goals, namely "user familiarity" bias. This data bias deepens when it combines with data-driven TOD systems, as it is impossible to fathom the effect of it with existing static evaluations. Hence, we conduct an interactive user study to unveil how vulnerable TOD systems are against realistic scenarios. In particular, we compare users with 1) detailed goal instructions that conform to the system boundaries (closed-goal) and 2) vague goal instructions that are often unsupported but realistic (open-goal). Our study reveals that conversations in open-goal settings lead to catastrophic failures of the system, in which 92% of the dialogues had significant issues. Moreover, we conduct a thorough analysis to identify distinctive features between the two settings through error annotation. From this, we discover a novel "pretending" behavior, in which the system pretends to handle the user requests even though they are beyond the system's capabilities. We discuss its characteristics and toxicity while emphasizing transparency and a fallback strategy for robust TOD systems.
Abstract（参考訳）: ほとんどのタスク指向対話(TOD)ベンチマークでは、システムの機能内でのユーザ動作を厳格なユーザ目標、すなわち"ユーザ親しみ"バイアスによって制限することで、システムの使用方法を正確に知るユーザを前提としている。このデータバイアスは、データ駆動のtodシステムと組み合わせると深くなり、既存の静的評価とデータの影響を相殺することは不可能である。そこで本研究では,現実シナリオに対するTODシステムの脆弱性を明らかにするために,インタラクティブなユーザスタディを実施している。特にユーザとユーザを比較します 1)システムの境界(閉じたゴール)に適合する詳細な目標指示 2) しばしばサポートされないが現実的な(オープンゴール)曖昧な目標指示。本研究は,対話の92%が重大な問題を抱えたシステムにおいて,オープンゴール環境での会話が壊滅的な失敗に繋がることを明らかにした。さらに,エラーアノテーションによる2つの設定間の特徴を特定するために,徹底的な解析を行う。このことから,システムの機能を超えても,システムがユーザの要求を処理するように振る舞う,新たな“予測”行動が発見された。 todシステムの透明性とフォールバック戦略を強調しながら,その特性と毒性について考察する。

関連論文リスト

Reward-Driven Interaction: Enhancing Proactive Dialogue Agents through User Satisfaction Prediction [22.105598216923706]
本稿では,ユーザの発話の表現学習を改善するための2つの補助的タスクと,ユーザの満足度を予測するセッションを提案する。提案手法はDuerOS上で評価され、希少なユーザ発話や長い尾領域における誤り認識の精度が大幅に向上した。
論文参考訳（メタデータ） (2025-05-24T15:01:30Z)
Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文参考訳（メタデータ） (2025-04-09T13:21:17Z)
Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文参考訳（メタデータ） (2024-04-19T16:45:50Z)
CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文参考訳（メタデータ） (2024-03-27T23:45:31Z)
Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。タスク指向対話の実例について,DAUSを微調整する。 2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文参考訳（メタデータ） (2024-02-20T20:57:47Z)
Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文参考訳（メタデータ） (2023-04-21T02:20:24Z)
A Transformer-Based User Satisfaction Prediction for Proactive Interaction Mechanism in DuerOS [12.060990859604681]
そこで本研究では,ユーザに対して提示する前に,ユーザの満足度とユーザの反応を予測できる能動的インタラクション機構を提案する。ユーザが予測に応じて満足できない場合、システムはユーザの本当の意図を決定するのに適した質問をユーザに尋ねる。当社のモデルをDuerOS上に展開・評価し,ユーザ満足度予測の精度に対する19%の相対的改善と,ユーザエクスペリエンスに対する2.3%の相対的改善を観察した。
論文参考訳（メタデータ） (2022-12-05T09:17:49Z)
Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文参考訳（メタデータ） (2022-09-02T08:32:52Z)
User Satisfaction Estimation with Sequential Dialogue Act Modeling in Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。 USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。 4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2022-02-07T02:50:07Z)
Advances and Challenges in Conversational Recommender Systems: A Survey [133.93908165922804]
現在の会話レコメンダーシステム(CRS)で使用されるテクニックの体系的なレビューを提供します。 CRS開発の主な課題を5つの方向にまとめます。これらの研究の方向性は、情報検索(IR)、自然言語処理(NLP)、人間とコンピュータの相互作用(HCI)などの複数の研究分野を含みます。
論文参考訳（メタデータ） (2021-01-23T08:53:15Z)
NUANCED: Natural Utterance Annotation for Nuanced Conversation with Estimated Distributions [36.00476428803116]
本研究では,ユーザ中心の対話システムの構築を試みる。まず,ユーザの好みをシステムオントロジー上の推定分布としてモデル化し,ユーザの発話をそのような分布にマッピングする。我々は、会話レコメンデーションのための現実的な設定に焦点を当てたNUANCEDという新しいデータセットを構築した。
論文参考訳（メタデータ） (2020-10-24T03:23:14Z)
Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文参考訳（メタデータ） (2020-06-19T20:49:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。