論文の概要: A Generative User Simulator with GPT-based Architecture and Goal State
Tracking for Reinforced Multi-Domain Dialog Systems
- arxiv url: http://arxiv.org/abs/2210.08692v2
- Date: Tue, 18 Oct 2022 06:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 10:36:36.261278
- Title: A Generative User Simulator with GPT-based Architecture and Goal State
Tracking for Reinforced Multi-Domain Dialog Systems
- Title(参考訳): 強化多ドメイン対話システムのためのGPTアーキテクチャとゴール状態追跡を用いた生成ユーザシミュレータ
- Authors: Hong Liu, Yucheng Cai, Zhijian Ou, Yi Huang, Junlan Feng
- Abstract要約: GPT-2に基づくアーキテクチャと目標状態追跡を備えた生成ユーザシミュレータ(GUS)を提案する。
GUSは3つの評価課題すべてにおいて優れた結果を得る。
- 参考スコア(独自算出の注目度): 22.249113574918034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building user simulators (USs) for reinforcement learning (RL) of
task-oriented dialog systems (DSs) has gained more and more attention, which,
however, still faces several fundamental challenges. First, it is unclear
whether we can leverage pretrained language models to design, for example,
GPT-2 based USs, to catch up and interact with the recently advanced GPT-2
based DSs. Second, an important ingredient in a US is that the user goal can be
effectively incorporated and tracked; but how to flexibly integrate goal state
tracking and develop an end-to-end trainable US for multi-domains has remained
to be a challenge. In this work, we propose a generative user simulator (GUS)
with GPT-2 based architecture and goal state tracking towards addressing the
above two challenges. Extensive experiments are conducted on MultiWOZ2.1.
Different DSs are trained via RL with GUS, the classic agenda-based user
simulator (ABUS) and other ablation simulators respectively, and are compared
for cross-model evaluation, corpus-based evaluation and human evaluation. The
GUS achieves superior results in all three evaluation tasks.
- Abstract(参考訳): タスク指向対話システム(DS)の強化学習(RL)のためのユーザシミュレータ(US)の構築がますます注目されてきているが、それでもいくつかの根本的な課題に直面している。
まず、事前訓練された言語モデルを用いて、例えばGPT-2ベースのUSを設計し、最近進歩したGPT-2ベースのDSに追いつき、相互作用できるかどうかは不明である。
第2に、米国における重要な要素は、ユーザ目標を効果的に組み込んで追跡できることであるが、目標状態の追跡を柔軟に統合し、マルチドメインのためのエンドツーエンドのトレーニング可能なUSを開発する方法は、依然として課題である。
本稿では,GPT-2をベースとした汎用ユーザシミュレータ(GUS)と,上記の2つの課題に対処するための目標状態追跡を提案する。
multiwoz2.1に関する広範な実験が行われた。
従来のアジェンダベースユーザシミュレータ (ABUS) と他のアブレーションシミュレータ (ABUS) を用いて, RL を用いて異なるDSを訓練し, クロスモデル評価, コーパスベース評価, 人的評価を行う。
GUSは3つの評価課題すべてにおいて優れた結果を得る。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - User Simulation with Large Language Models for Evaluating Task-Oriented
Dialogue [10.336443286833145]
本稿では,最近開発された大規模事前学習言語モデル(LLM)を用いた新しいユーザシミュレータを提案する。
シミュレーション性能の主指標としてゴール成功率(GSR)を最大化しようとする従来の研究とは異なり,本研究の目的は,TODシステムとのヒューマンインタラクションで観測されるようなGSRを実現するシステムである。
論文 参考訳(メタデータ) (2023-09-23T02:04:57Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Jointly Reinforced User Simulator and Task-oriented Dialog System with
Simplified Generative Architecture [24.305558215176752]
GPT-2ベースのダイアログシステム(DS)とエンドユーザシミュレータ(US)のオンライン強化学習は、これまで検討されていない。
本稿ではまず,GPT-2に基づくDSとUS用のSGA(Simplified Generative Architectures)を提案する。
提案するSGAを用いたDSは,MultiWOZ2.1上での最先端性能を実現し,学習と生成の両面で計算効率が向上する。
論文 参考訳(メタデータ) (2022-10-13T03:57:17Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Variational Latent-State GPT for Semi-supervised Task-Oriented Dialog
Systems [24.667353107453824]
変分潜在状態GPTモデル(VLS-GPT)は2つのアプローチの強みを組み合わせた最初のモデルである。
我々は,GPTを変分学習に使用する際のメモリ爆発問題を克服する,サンプリング-then-forward-computationの戦略を開発した。
VLS-GPTは、教師のみのベースラインと半教師付きベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2021-09-09T14:42:29Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。