論文の概要: Reward-Driven Interaction: Enhancing Proactive Dialogue Agents through User Satisfaction Prediction
- arxiv url: http://arxiv.org/abs/2505.18731v1
- Date: Sat, 24 May 2025 15:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.625276
- Title: Reward-Driven Interaction: Enhancing Proactive Dialogue Agents through User Satisfaction Prediction
- Title(参考訳): Reward-Driven Interaction: ユーザ満足度予測によるプロアクティブ対話エージェントの強化
- Authors: Wei Shen, Xiaonan He, Chuheng Zhang, Xuyun Zhang, Xiaolong Xu, Wanchun Dou,
- Abstract要約: 本稿では,ユーザの発話の表現学習を改善するための2つの補助的タスクと,ユーザの満足度を予測するセッションを提案する。
提案手法はDuerOS上で評価され、希少なユーザ発話や長い尾領域における誤り認識の精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 22.105598216923706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward-driven proactive dialogue agents require precise estimation of user satisfaction as an intrinsic reward signal to determine optimal interaction strategies. Specifically, this framework triggers clarification questions when detecting potential user dissatisfaction during interactions in the industrial dialogue system. Traditional works typically rely on training a neural network model based on weak labels which are generated by a simple model trained on user actions after current turn. However, existing methods suffer from two critical limitations in real-world scenarios: (1) Noisy Reward Supervision, dependence on weak labels derived from post-hoc user actions introduces bias, particularly failing to capture satisfaction signals in ASR-error-induced utterances; (2) Long-Tail Feedback Sparsity, the power-law distribution of user queries causes reward prediction accuracy to drop in low-frequency domains. The noise in the weak labels and a power-law distribution of user utterances results in that the model is hard to learn good representation of user utterances and sessions. To address these limitations, we propose two auxiliary tasks to improve the representation learning of user utterances and sessions that enhance user satisfaction prediction. The first one is a contrastive self-supervised learning task, which helps the model learn the representation of rare user utterances and identify ASR errors. The second one is a domain-intent classification task, which aids the model in learning the representation of user sessions from long-tailed domains and improving the model's performance on such domains. The proposed method is evaluated on DuerOS, demonstrating significant improvements in the accuracy of error recognition on rare user utterances and long-tailed domains.
- Abstract(参考訳): リワード駆動のプロアクティブ対話エージェントは、最適なインタラクション戦略を決定するために、本質的な報酬信号として、ユーザの満足度を正確に推定する必要がある。
具体的には、産業対話システムにおける対話における潜在的なユーザ不満足を検出する際に、この枠組みが明確化の疑問を引き起こす。
従来の作業は一般的に、現在のターン後にユーザアクションに基づいてトレーニングされたシンプルなモデルによって生成される弱いラベルに基づくニューラルネットワークモデルのトレーニングに依存しています。
しかし,既存の手法では,(1)ノイズリワード・スーパービジョン,(1)ポストホックなユーザアクションから派生した弱いラベルへの依存にはバイアスが発生し,特にASR-エラーによる発話における満足度信号の取得に失敗する,(2)Long-Tail Feedback Sparsity,(2)ユーザクエリのパワーロッド分布は,低周波領域における報酬予測精度を低下させる,という2つの限界がある。
弱いラベルのノイズとユーザ発話のゆるい分布は、モデルがユーザ発話やセッションのよい表現を習得することが困難であることを示している。
これらの制約に対処するため、ユーザ発話の表現学習を改善するための2つの補助タスクと、ユーザの満足度を予測するセッションを提案する。
このタスクは、希少なユーザ発話の表現を学習し、ASRエラーを識別するのに役立つ。
このタスクは、長い尾を持つドメインからユーザーセッションの表現を学習し、そのようなドメインにおけるモデルの性能を改善するのに役立つ。
提案手法はDuerOS上で評価され、希少なユーザ発話や長い尾領域における誤り認識の精度が大幅に向上した。
関連論文リスト
- Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z) - Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - Reasoning LLMs for User-Aware Multimodal Conversational Agents [3.533721662684487]
社会ロボティクスにおけるパーソナライゼーションは、効果的な人間とロボットの相互作用を促進するために重要である。
本稿では,ユーザ認識型対話エージェントのための新しいフレームワークUSER-LLM R1を提案する。
提案手法では,チェーン・オブ・シンク(CoT)推論モデルを統合し,ユーザの好みや視覚言語モデルを反復的に推測する。
論文 参考訳(メタデータ) (2025-04-02T13:00:17Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - SeGA: Preference-Aware Self-Contrastive Learning with Prompts for
Anomalous User Detection on Twitter [14.483830120541894]
本稿では,ユーザの異常検出のための自己コントラスト学習であるSeGAを提案する。
SeGAは、投稿を通じてユーザの好みを要約するために、大きな言語モデルを使用する。
モデル設計と事前学習戦略の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-12-17T05:35:28Z) - Decoding the Silent Majority: Inducing Belief Augmented Social Graph
with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。
本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文 参考訳(メタデータ) (2023-10-20T06:17:02Z) - Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation [17.41434948048325]
我々は,現実的なシナリオに対して,TODシステムがいかに脆弱であるかを明らかにするために,インタラクティブなユーザスタディを実施している。
我々の研究は、オープンゴール設定での会話がシステムの破滅的な失敗につながることを明らかにした。
我々は,システムの能力を超えても,システムがユーザの要求を処理するふりをする,新たな“予測”行動を発見した。
論文 参考訳(メタデータ) (2023-05-23T09:24:53Z) - A Transformer-Based User Satisfaction Prediction for Proactive
Interaction Mechanism in DuerOS [12.060990859604681]
そこで本研究では,ユーザに対して提示する前に,ユーザの満足度とユーザの反応を予測できる能動的インタラクション機構を提案する。
ユーザが予測に応じて満足できない場合、システムはユーザの本当の意図を決定するのに適した質問をユーザに尋ねる。
当社のモデルをDuerOS上に展開・評価し,ユーザ満足度予測の精度に対する19%の相対的改善と,ユーザエクスペリエンスに対する2.3%の相対的改善を観察した。
論文 参考訳(メタデータ) (2022-12-05T09:17:49Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。