論文の概要: What Does The User Want? Information Gain for Hierarchical Dialogue
Policy Optimisation
- arxiv url: http://arxiv.org/abs/2109.07129v1
- Date: Wed, 15 Sep 2021 07:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 01:35:52.504564
- Title: What Does The User Want? Information Gain for Hierarchical Dialogue
Policy Optimisation
- Title(参考訳): ユーザは何を望んでいるのか?
階層的対話政策最適化のための情報ゲイン
- Authors: Christian Geishauser, Songbo Hu, Hsien-chin Lin, Nurul Lubis, Michael
Heck, Shutong Feng, Carel van Niekerk, Milica Ga\v{s}i\'c
- Abstract要約: 強化学習(RL)による最適化は、非効率性と不安定性のサンプリングに影響を受けやすい。
本稿では,この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。
FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を得る。
- 参考スコア(独自算出の注目度): 3.1433893853959605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dialogue management component of a task-oriented dialogue system is
typically optimised via reinforcement learning (RL). Optimisation via RL is
highly susceptible to sample inefficiency and instability. The hierarchical
approach called Feudal Dialogue Management takes a step towards more efficient
learning by decomposing the action space. However, it still suffers from
instability due to the reward only being provided at the end of the dialogue.
We propose the usage of an intrinsic reward based on information gain to
address this issue. Our proposed reward favours actions that resolve
uncertainty or query the user whenever necessary. It enables the policy to
learn how to retrieve the users' needs efficiently, which is an integral aspect
in every task-oriented conversation. Our algorithm, which we call FeudalGain,
achieves state-of-the-art results in most environments of the PyDial framework,
outperforming much more complex approaches. We confirm the sample efficiency
and stability of our algorithm through experiments in simulation and a human
trial.
- Abstract(参考訳): タスク指向対話システムの対話管理コンポーネントは通常、強化学習(RL)によって最適化される。
RLによる最適化は、サンプルの非効率性と不安定性に非常に敏感である。
Feudal Dialogue Managementと呼ばれる階層的なアプローチは、アクション空間を分解することで、より効率的な学習へと進む。
しかし、対話の最後にのみ与えられる報酬のため、依然として不安定な状態にある。
この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。
提案する報酬は,不確実性を解消するか,必要に応じてユーザに問い合わせるアクションを優先する。
ポリシーは、タスク指向の会話に不可欠な側面である、ユーザの要求を効率的に取り出す方法を学ぶことができる。
FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を達成し、より複雑なアプローチよりも優れています。
シミュレーション実験と人間実験により,本アルゴリズムのサンプル効率と安定性を確認した。
関連論文リスト
- Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Interacting with Non-Cooperative User: A New Paradigm for Proactive
Dialogue Policy [83.61404191470126]
インタラクティブな環境下でプロアクティブなポリシーを学習できるI-Proという新しいソリューションを提案する。
具体的には,4つの要因からなる学習目標重みを通じてトレードオフを学習する。
実験の結果,I-Proは,有効性と解釈性において,ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-04-07T14:11:31Z) - Conversational Recommendation: Theoretical Model and Complexity Analysis [6.084774669743511]
理論的にドメインに依存しない会話推薦モデルを提案する。
効率的な会話戦略の発見はNPハードであることが示される。
また,カタログの特徴が個々の対話戦略の効率性に強く影響を与えることを示す。
論文 参考訳(メタデータ) (2021-11-10T09:05:52Z) - Causal-aware Safe Policy Improvement for Task-oriented dialogue [45.88777832381149]
我々はタスク指向対話政策学習のためのバッチrlフレームワークを提案する:causal safe policy improvement (caspi)
Multiwoz2.0データセットの対話対テキスト生成およびエンドツーエンド対話タスクにおけるこのフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-10T22:34:28Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Adaptive Dialog Policy Learning with Hindsight and User Modeling [10.088347529930129]
シミュレーションと実ユーザの両方から,ダイアログエージェントが後見で適応的に学習できるアルゴリズムLHUAを開発した。
実験結果から、LHUAは成功率と政策品質において、文献の競争基準よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-05-07T07:43:43Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。