論文の概要: Multi-Action Dialog Policy Learning from Logged User Feedback
- arxiv url: http://arxiv.org/abs/2302.13505v1
- Date: Mon, 27 Feb 2023 04:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 16:51:02.615948
- Title: Multi-Action Dialog Policy Learning from Logged User Feedback
- Title(参考訳): ログユーザフィードバックによるマルチアクションダイアログポリシ学習
- Authors: Shuo Zhang, Junzhou Zhao, Pinghui Wang, Tianxiang Wang, Zi Liang, Jing
Tao, Yi Huang, Junlan Feng
- Abstract要約: マルチアクションダイアログポリシーは、ターン毎に複数のアトミックダイアログアクションを生成する。
データ制限のため、既存のポリシーモデルは、目に見えないダイアログフローに対してあまり一般化しない。
暗黙的かつ暗黙的なターンレベルのユーザフィードバックでマルチアクションダイアログポリシー学習を改善するためにBanditMatchを提案する。
- 参考スコア(独自算出の注目度): 28.4271696269512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-action dialog policy, which generates multiple atomic dialog actions
per turn, has been widely applied in task-oriented dialog systems to provide
expressive and efficient system responses. Existing policy models usually
imitate action combinations from the labeled multi-action dialog examples. Due
to data limitations, they generalize poorly toward unseen dialog flows. While
reinforcement learning-based methods are proposed to incorporate the service
ratings from real users and user simulators as external supervision signals,
they suffer from sparse and less credible dialog-level rewards. To cope with
this problem, we explore to improve multi-action dialog policy learning with
explicit and implicit turn-level user feedback received for historical
predictions (i.e., logged user feedback) that are cost-efficient to collect and
faithful to real-world scenarios. The task is challenging since the logged user
feedback provides only partial label feedback limited to the particular
historical dialog actions predicted by the agent. To fully exploit such
feedback information, we propose BanditMatch, which addresses the task from a
feedback-enhanced semi-supervised learning perspective with a hybrid objective
of semi-supervised learning and bandit learning. BanditMatch integrates
pseudo-labeling methods to better explore the action space through constructing
full label feedback. Extensive experiments show that our BanditMatch
outperforms the state-of-the-art methods by generating more concise and
informative responses. The source code and the appendix of this paper can be
obtained from https://github.com/ShuoZhangXJTU/BanditMatch.
- Abstract(参考訳): マルチアクションダイアログポリシは,タスク指向のダイアログシステムにおいて,表現的かつ効率的なシステム応答を提供するために広く適用されてきた。
既存のポリシーモデルは通常、ラベル付きマルチアクションダイアログの例からアクションの組み合わせを模倣する。
データ制限のため、見当たらないダイアログフローに対してあまり一般化しない。
実ユーザとユーザシミュレータのサービスレーティングを外部監視信号として組み込むための強化学習に基づく手法が提案されているが、それらは疎度で信頼性の低いダイアログレベルの報酬に悩まされている。
本研究では,リアルタイムシナリオの収集と忠実化に費用対効果の高い過去の予測(すなわちログユーザフィードバック)に対して,明示的かつ暗黙的なターンレベルのユーザフィードバックを受信することで,マルチアクションダイアログのポリシ学習を改善することを目的とした。
ログされたユーザフィードバックは、エージェントが予測した特定の履歴ダイアログアクションに限られる部分的なラベルフィードバックのみを提供するため、タスクは難しい。
このようなフィードバック情報を完全に活用するために,フィードバック強化型半教師あり学習の観点から,半教師あり学習と包括学習のハイブリッド目的を用いたタスクに対処するBanditMatchを提案する。
BanditMatchは擬似ラベル手法を統合し、完全なラベルフィードバックを構築することでアクション空間をよりよく探索する。
大規模な実験により、BanditMatchはより簡潔で情報的な応答を生成することによって最先端の手法より優れていることが示された。
この論文のソースコードと付録はhttps://github.com/ShuoZhangXJTU/BanditMatchから取得できる。
関連論文リスト
- In-Context Learning User Simulators for Task-Oriented Dialog Systems [1.7086737326992172]
本稿では,タスク指向対話システムにおけるユーザシミュレーションにおける大規模言語モデルの新たな応用について述べる。
提案手法は,これらのモデルのパワーを生かして,ユーザ目標と限られた対話例に基づく多様な発話を生成する。
論文 参考訳(メタデータ) (2023-06-01T15:06:11Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - HERALD: An Annotation Efficient Method to Detect User Disengagement in
Social Conversations [38.95985439093335]
ユーザの離脱を検出するための既存の作業は、通常、多くのダイアログサンプルを手作業でラベル付けする必要がある。
本稿では,学習データアノテーションプロセスを再編成する,効率的なアノテーションフレームワークHERALDを提案する。
実験の結果,HERALDはアノテーション効率を大幅に向上し,2つのダイアログコーパスにおいて86%のユーザ解離検出精度を実現することがわかった。
論文 参考訳(メタデータ) (2021-06-01T01:09:55Z) - Alexa Conversations: An Extensible Data-driven Approach for Building
Task-oriented Dialogue Systems [21.98135285833616]
従来の目標指向対話システムは、自然言語理解、対話状態追跡、政策学習、応答生成など、さまざまなコンポーネントに依存している。
スケーラブルかつデータ効率の高い,目標指向の対話システム構築のための新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-19T07:09:27Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Dialog Simulation with Realistic Variations for Training Goal-Oriented
Conversational Systems [14.206866126142002]
ゴール指向のダイアログシステムにより、ユーザーは映画に関する情報をリクエストしたり、チケットを予約したりといった特定の目標を達成することができる。
本稿では,注釈付きダイアログとダイアログスキーマから,注釈付きダイアログの大規模なコーパスを自動生成する手法を提案する。
ベースラインダイアログ生成手法と比較して,ホールドアウトテストセットの50%の相対精度を実現した。
論文 参考訳(メタデータ) (2020-11-16T19:39:15Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Towards Conversational Recommendation over Multi-Type Dialogs [78.52354759386296]
ボットは、非推奨ダイアログからレコメンデーションダイアログへの会話を積極的に自然に導くことができる。
この課題の研究を容易にするために,人間と人による中国語対話データセットemphDuRecDial(約10k対話,約156k発話)を作成する。
各ダイアログでは、リコメンデータが積極的にマルチタイプのダイアログを導き、レコメンデーションターゲットにアプローチし、リッチなインタラクション動作で複数のレコメンデーションを行う。
論文 参考訳(メタデータ) (2020-05-08T11:01:21Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。