論文の概要: Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition
- arxiv url: http://arxiv.org/abs/2004.03809v2
- Date: Thu, 23 Apr 2020 02:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:11:04.207385
- Title: Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition
- Title(参考訳): ロールアウェア報酬分解によるマルチエージェントタスク指向のダイアログポリシ学習
- Authors: Ryuichi Takanobu, Runze Liang, Minlie Huang
- Abstract要約: 本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
- 参考スコア(独自算出の注目度): 64.06167416127386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many studies have applied reinforcement learning to train a dialog policy and
show great promise these years. One common approach is to employ a user
simulator to obtain a large number of simulated user experiences for
reinforcement learning algorithms. However, modeling a realistic user simulator
is challenging. A rule-based simulator requires heavy domain expertise for
complex tasks, and a data-driven simulator requires considerable data and it is
even unclear how to evaluate a simulator. To avoid explicitly building a user
simulator beforehand, we propose Multi-Agent Dialog Policy Learning, which
regards both the system and the user as the dialog agents. Two agents interact
with each other and are jointly learned simultaneously. The method uses the
actor-critic framework to facilitate pretraining and improve scalability. We
also propose Hybrid Value Network for the role-aware reward decomposition to
integrate role-specific domain knowledge of each agent in the task-oriented
dialog. Results show that our method can successfully build a system policy and
a user policy simultaneously, and two agents can achieve a high task success
rate through conversational interaction.
- Abstract(参考訳): 多くの研究が強化学習をダイアログポリシーのトレーニングに応用し、近年は大きな期待が持たれている。
一般的なアプローチの1つは、強化学習アルゴリズムのために多数のシミュレーションユーザエクスペリエンスを取得するためにユーザシミュレータを使用することである。
しかし,現実的なユーザシミュレータのモデリングは難しい。
ルールベースのシミュレータは複雑なタスクに対して重いドメイン知識を必要とし、データ駆動シミュレータはかなりのデータを必要とし、シミュレータの評価方法さえも不明である。
ユーザシミュレータを事前に明示的に構築することを避けるために,システムとユーザの両方をダイアログエージェントとして扱うマルチエージェントダイアログポリシ学習を提案する。
2人のエージェントが互いに対話し、同時に学習される。
この方法はアクター・クリティカル・フレームワークを使用して事前学習とスケーラビリティの向上を容易にする。
また,タスク指向ダイアログにおける各エージェントの役割固有のドメイン知識を統合するために,役割認識報酬分解のためのハイブリッドバリューネットワークを提案する。
その結果,本手法はシステムポリシとユーザポリシを同時に構築することができ,対話的インタラクションによって2つのエージェントが高いタスク成功率を達成することができた。
関連論文リスト
- Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - Adversarial learning of neural user simulators for dialogue policy
optimisation [14.257597015289512]
強化学習に基づく対話ポリシーは、通常、ユーザシミュレータとのインタラクションで訓練される。
現在のデータ駆動シミュレータは、対話コーパス内のユーザの振る舞いを正確にモデル化するように訓練されている。
そこで本研究では,現実的なユーザ行動のシミュレートを目的とした,逆学習を用いた代替手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T16:17:16Z) - In-Context Learning User Simulators for Task-Oriented Dialog Systems [1.7086737326992172]
本稿では,タスク指向対話システムにおけるユーザシミュレーションにおける大規模言語モデルの新たな応用について述べる。
提案手法は,これらのモデルのパワーを生かして,ユーザ目標と限られた対話例に基づく多様な発話を生成する。
論文 参考訳(メタデータ) (2023-06-01T15:06:11Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Simulated Chats for Building Dialog Systems: Learning to Generate
Conversations from Instructions [14.47025580681492]
本稿では、事前訓練された言語モデルであるGPT2を用いて、ユーザボットとエージェントボットを作成することによって、群衆労働者間のインタラクションをシミュレートするデータ生成戦略を提案する。
シミュレーションデータを使用することで、2つの公開データセット上での低リソース設定を大幅に改善できることを実証する。
論文 参考訳(メタデータ) (2020-10-20T12:04:19Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine
Teaching [81.45928589522032]
トランスフォーマーに基づく自動回帰言語モデルを用いて,モジュール型タスク指向対話システムをパラメータ化する。
タスクグラウンド応答生成モデルである異種ダイアログコーパスの事前学習を行う。
実験により、SOLOISTは、よく研究されたタスク指向のダイアログベンチマーク上で、新しい最先端のダイアログを生成する。
論文 参考訳(メタデータ) (2020-05-11T17:58:34Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。