論文の概要: An Asynchronous Updating Reinforcement Learning Framework for
Task-oriented Dialog System
- arxiv url: http://arxiv.org/abs/2305.02718v1
- Date: Thu, 4 May 2023 10:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 16:00:16.676803
- Title: An Asynchronous Updating Reinforcement Learning Framework for
Task-oriented Dialog System
- Title(参考訳): タスク指向対話システムのための非同期更新強化学習フレームワーク
- Authors: Sai Zhang, Yuwei Hu, Xiaojie Wang and Caixia Yuan
- Abstract要約: 多くの研究でダイアログシステムの学習に強化学習が適用されている。
従来のアプローチでは、ダイアログシステムはDST(dialog state tracking)やDP(dialog policy)など複数のモジュールに分割されていた。
本稿では,協調的な環境下でDSTモジュールとDPモジュールを非同期に更新する非同期更新強化学習フレームワーク(AURL)を提案する。
- 参考スコア(独自算出の注目度): 10.396754488921708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has been applied to train the dialog systems in many
works. Previous approaches divide the dialog system into multiple modules
including DST (dialog state tracking) and DP (dialog policy), and train these
modules simultaneously. However, different modules influence each other during
training. The errors from DST might misguide the dialog policy, and the system
action brings extra difficulties for the DST module. To alleviate this problem,
we propose Asynchronous Updating Reinforcement Learning framework (AURL) that
updates the DST module and the DP module asynchronously under a cooperative
setting. Furthermore, curriculum learning is implemented to address the problem
of unbalanced data distribution during reinforcement learning sampling, and
multiple user models are introduced to increase the dialog diversity. Results
on the public SSD-PHONE dataset show that our method achieves a compelling
result with a 31.37% improvement on the dialog success rate. The code is
publicly available via https://github.com/shunjiu/AURL.
- Abstract(参考訳): 多くの作業でダイアログシステムをトレーニングするために強化学習が適用されている。
従来のアプローチでは、ダイアログシステムをDST(dialog state tracking)やDP(dialog policy)など複数のモジュールに分割し、これらのモジュールを同時にトレーニングする。
しかし、異なるモジュールはトレーニング中に互いに影響を与えます。
DSTからのエラーはダイアログポリシーを誤認する可能性があり、システムアクションはDSTモジュールに余計な困難をもたらす。
この問題を軽減するために,協調的にDSTモジュールとDPモジュールを非同期に更新する非同期更新強化学習フレームワーク(AURL)を提案する。
さらに、強化学習サンプリング中の不均衡データ分布問題に対処するためにカリキュラム学習を実施し、対話の多様性を高めるために複数のユーザモデルを導入する。
また,ssd-phoneデータセットの結果から,ダイアログ成功率を31.37%向上させた結果が得られた。
コードはhttps://github.com/shunjiu/AURLで公開されている。
関連論文リスト
- Learning from Relevant Subgoals in Successful Dialogs using Iterative Training for Task-oriented Dialog Systems [6.226609932118126]
タスク指向ダイアログ(ToD)システムは、ユーザ目標を達成するために複数のサブゴールを解決しなければならないが、フィードバックはダイアログの最後にのみ取得されることが多い。
ToDシステムを改善するための反復的トレーニング手法であるSuIT(subgoal-aware ITerative Training)を提案する。
論文 参考訳(メタデータ) (2024-11-25T11:47:31Z) - Prompt Pool based Class-Incremental Continual Learning for Dialog State
Tracking [27.54040661152389]
本稿では,クラスインクリメンタルシナリオにおけるダイアログ状態追跡(DST)の継続的な学習を提案する。
近年,ダイアログシステムでよく機能するプロンプト・チューニング手法に着想を得て,プロンプト・プール法を提案する。
提案手法は,タスクを自動的に識別し,テスト中に適切なプロンプトを選択する。
論文 参考訳(メタデータ) (2023-11-17T01:33:05Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog
Understanding and Generation [123.37377363355363]
SPACE-3は、大規模対話コーパスから学習する、新しい半教師付き会話モデルである。
幅広いダウンストリームダイアログタスクを効果的に微調整できる。
その結果、SPACE-3は8つの下流ダイアログベンチマークで最先端のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-09-14T14:17:57Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z) - MinTL: Minimalist Transfer Learning for Task-Oriented Dialogue Systems [75.43457658815943]
タスク指向対話システムのシステム設計プロセスを簡単にするミニマリスト変換学習(MinTL)を提案する。
MinTLはシンプルだが効果的な転送学習フレームワークであり、事前訓練されたSeq2seqモデルのプラグインと再生を可能にする。
トレーニング済みの2つのバックボーン(T5とBART)で学習フレームワークをインスタンス化し、MultiWOZで評価する。
論文 参考訳(メタデータ) (2020-09-25T02:19:13Z) - SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine
Teaching [81.45928589522032]
トランスフォーマーに基づく自動回帰言語モデルを用いて,モジュール型タスク指向対話システムをパラメータ化する。
タスクグラウンド応答生成モデルである異種ダイアログコーパスの事前学習を行う。
実験により、SOLOISTは、よく研究されたタスク指向のダイアログベンチマーク上で、新しい最先端のダイアログを生成する。
論文 参考訳(メタデータ) (2020-05-11T17:58:34Z) - Learning Dialog Policies from Weak Demonstrations [32.149932955715705]
Demonstrations (DQfD) からの深層Q-learningを構築し,ダイアログデータを利用してエージェントを誘導し,ユーザの要求に応答する。
ラベル付きデータ、ラベル付きデータ、さらにはラベルなしデータを使って、必要なデータに関する仮定を徐々に減らします。
挑戦的なマルチドメインダイアログシステムフレームワークの実験は、我々のアプローチを検証し、ドメイン外のデータでトレーニングしても高い成功率を得る。
論文 参考訳(メタデータ) (2020-04-23T10:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。