論文の概要: Adversarial learning of neural user simulators for dialogue policy
optimisation
- arxiv url: http://arxiv.org/abs/2306.00858v1
- Date: Thu, 1 Jun 2023 16:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 14:35:23.095332
- Title: Adversarial learning of neural user simulators for dialogue policy
optimisation
- Title(参考訳): 対話政策最適化のためのニューラルユーザシミュレータの逆学習
- Authors: Simon Keizer, Caroline Dockes, Norbert Braunschweiler, Svetlana
Stoyanchev, Rama Doddipatla
- Abstract要約: 強化学習に基づく対話ポリシーは、通常、ユーザシミュレータとのインタラクションで訓練される。
現在のデータ駆動シミュレータは、対話コーパス内のユーザの振る舞いを正確にモデル化するように訓練されている。
そこで本研究では,現実的なユーザ行動のシミュレートを目的とした,逆学習を用いた代替手法を提案する。
- 参考スコア(独自算出の注目度): 14.257597015289512
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning based dialogue policies are typically trained in
interaction with a user simulator. To obtain an effective and robust policy,
this simulator should generate user behaviour that is both realistic and
varied. Current data-driven simulators are trained to accurately model the user
behaviour in a dialogue corpus. We propose an alternative method using
adversarial learning, with the aim to simulate realistic user behaviour with
more variation. We train and evaluate several simulators on a corpus of
restaurant search dialogues, and then use them to train dialogue system
policies. In policy cross-evaluation experiments we demonstrate that an
adversarially trained simulator produces policies with 8.3% higher success rate
than those trained with a maximum likelihood simulator. Subjective results from
a crowd-sourced dialogue system user evaluation confirm the effectiveness of
adversarially training user simulators.
- Abstract(参考訳): 強化学習に基づく対話ポリシーは通常、ユーザシミュレータとのインタラクションで訓練される。
効果的でロバストなポリシーを得るためには,現実的かつ多様なユーザ行動を生成する必要がある。
現在のデータ駆動シミュレータは、対話コーパスにおけるユーザの振る舞いを正確にモデル化するように訓練される。
本稿では,現実的なユーザ行動のシミュレーションを目的とした,逆学習を用いた代替手法を提案する。
レストラン検索ダイアログのコーパス上で,複数のシミュレータを訓練し,評価し,その上で対話システムポリシーを訓練する。
政策横断評価実験では, 最大極大シミュレータで訓練したシミュレータよりも8.3%高い成功率のポリシーを生成することを示した。
クラウドソースによる対話システムにおけるユーザ評価の結果から,ユーザシミュレータの学習効果が確認された。
関連論文リスト
- Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Improving Conversational Recommendation Systems via Counterfactual Data
Simulation [73.4526400381668]
会話推薦システム(CRS)は、自然言語による会話を通じてレコメンデーションサービスを提供することを目的としている。
既存のCRSアプローチは、トレーニングデータの不足により、トレーニングの不十分な問題に悩まされることが多い。
我々は,CRSにおけるデータ不足の問題を緩和するため,CFCRSと呼ばれるCRSに対するCounterFactualデータシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T12:48:56Z) - In-Context Learning User Simulators for Task-Oriented Dialog Systems [1.7086737326992172]
本稿では,タスク指向対話システムにおけるユーザシミュレーションにおける大規模言語モデルの新たな応用について述べる。
提案手法は,これらのモデルのパワーを生かして,ユーザ目標と限られた対話例に基づく多様な発話を生成する。
論文 参考訳(メタデータ) (2023-06-01T15:06:11Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。