論文の概要: Interacting with Non-Cooperative User: A New Paradigm for Proactive
Dialogue Policy
- arxiv url: http://arxiv.org/abs/2204.07433v1
- Date: Thu, 7 Apr 2022 14:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 20:10:51.723679
- Title: Interacting with Non-Cooperative User: A New Paradigm for Proactive
Dialogue Policy
- Title(参考訳): 非協力的ユーザとの対話 : 積極的な対話政策のための新しいパラダイム
- Authors: Wenqiang Lei, Yao Zhang, Feifan Song, Hongru Liang, Jiaxin Mao,
Jiancheng Lv, Zhenglu Yang and Tat-Seng Chua
- Abstract要約: インタラクティブな環境下でプロアクティブなポリシーを学習できるI-Proという新しいソリューションを提案する。
具体的には,4つの要因からなる学習目標重みを通じてトレードオフを学習する。
実験の結果,I-Proは,有効性と解釈性において,ベースラインを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 83.61404191470126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proactive dialogue system is able to lead the conversation to a goal topic
and has advantaged potential in bargain, persuasion and negotiation. Current
corpus-based learning manner limits its practical application in real-world
scenarios. To this end, we contribute to advance the study of the proactive
dialogue policy to a more natural and challenging setting, i.e., interacting
dynamically with users. Further, we call attention to the non-cooperative user
behavior -- the user talks about off-path topics when he/she is not satisfied
with the previous topics introduced by the agent. We argue that the targets of
reaching the goal topic quickly and maintaining a high user satisfaction are
not always converge, because the topics close to the goal and the topics user
preferred may not be the same. Towards this issue, we propose a new solution
named I-Pro that can learn Proactive policy in the Interactive setting.
Specifically, we learn the trade-off via a learned goal weight, which consists
of four factors (dialogue turn, goal completion difficulty, user satisfaction
estimation, and cooperative degree). The experimental results demonstrate I-Pro
significantly outperforms baselines in terms of effectiveness and
interpretability.
- Abstract(参考訳): 積極的な対話システムは、会話を目標トピックに導くことができ、交渉、説得、交渉の可能性を活用できる。
現在のコーパスベースの学習方法は、現実のシナリオにおける実践的応用を制限する。
この目的のために,我々は,ユーザと動的に対話する,より自然で困難な環境に,積極的な対話政策の研究を進めていくことに貢献する。
さらに,非協調的ユーザの行動に注意を喚起し,エージェントが導入した以前の話題に満足していない場合に,非協調的トピックについて話す。
ゴールに近いトピックとユーザが好むトピックは同じではないかもしれないので、目標トピックを素早く到達し、高いユーザ満足度を維持するという目標は常に収束するとは限らない、と論じている。
そこで本研究では,インタラクティブな環境下でプロアクティブなポリシーを学習できるI-Proという新しいソリューションを提案する。
具体的には,4つの因子(ダイアローグターン,ゴール完了難易度,ユーザ満足度推定,協調度)から学習した目標重みによってトレードオフを学習する。
実験結果から,I-Proは有効性と解釈性において基線よりも有意に優れていた。
関連論文リスト
- Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue
Systems [26.003947740875482]
ソーシャル対話タスクにおけるユーザ行動と主観的評価スコアの関係について検討する。
その結果, ユーザの発話が主である対話作業においては, 聞き取りや面接など, 発話数や単語数などの指標が重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-01-10T01:02:26Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - A Survey on Proactive Dialogue Systems: Problems, Methods, and Prospects [100.75759050696355]
本稿では,対話エージェントの多種多様な対話における能動性に関する顕著な問題と先進的な設計について概説する。
我々は、現実世界のアプリケーションのニーズを満たすが、将来もっと研究に焦点を当てる必要がある課題について議論する。
論文 参考訳(メタデータ) (2023-05-04T11:38:49Z) - User Satisfaction Estimation with Sequential Dialogue Act Modeling in
Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。
USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。
4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-07T02:50:07Z) - What Does The User Want? Information Gain for Hierarchical Dialogue
Policy Optimisation [3.1433893853959605]
強化学習(RL)による最適化は、非効率性と不安定性のサンプリングに影響を受けやすい。
本稿では,この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。
FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-15T07:21:26Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Dynamic Knowledge Routing Network For Target-Guided Open-Domain
Conversation [79.7781436501706]
本稿では,粗いキーワードを導入することで,システム応答の意図した内容を制御する構造的アプローチを提案する。
また,対話を円滑な目標達成に導くために,より高い成功率で対話を誘導する新たな二重談話レベルの目標誘導戦略を提案する。
論文 参考訳(メタデータ) (2020-02-04T09:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。