論文の概要: DORA: Toward Policy Optimization for Task-oriented Dialogue System with
Efficient Context
- arxiv url: http://arxiv.org/abs/2107.03286v1
- Date: Wed, 7 Jul 2021 15:24:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 17:21:20.540206
- Title: DORA: Toward Policy Optimization for Task-oriented Dialogue System with
Efficient Context
- Title(参考訳): DORA:効率的なコンテキストをもつタスク指向対話システムのポリシー最適化に向けて
- Authors: Hyunmin Jeon, Gary Geunbae Lee
- Abstract要約: 我々は、効率的なコンテキスト(DORA)を用いた反復行動ポリシーを最適化した対話システムと呼ばれる多ドメインタスク指向対話システムを提案する。
DORAは、対話履歴全体ではなく、効率的なコンテキストを考慮した明示的なシステムアクションポリシーを使用することで、SLとRLの両方のステップで明確に最適化されている。
DORAはMultiWOZ 2.0で6.6ポイント、MultiWOZ 2.1で10.9ポイント改善した。
- 参考スコア(独自算出の注目度): 3.962145079528281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, reinforcement learning (RL) has been applied to task-oriented
dialogue systems by using latent actions to solve shortcomings of supervised
learning (SL). In this paper, we propose a multi-domain task-oriented dialogue
system, called Dialogue System with Optimizing a Recurrent Action Policy using
Efficient Context (DORA), that uses SL, with subsequently applied RL to
optimize dialogue systems using a recurrent dialogue policy. This dialogue
policy recurrently generates explicit system actions as a both word-level and
high-level policy. As a result, DORA is clearly optimized during both SL and RL
steps by using an explicit system action policy that considers an efficient
context instead of the entire dialogue history. The system actions are both
interpretable and controllable, whereas the latent actions are not. DORA
improved the success rate by 6.6 points on MultiWOZ 2.0 and by 10.9 points on
MultiWOZ 2.1.
- Abstract(参考訳): 近年,教師あり学習(SL)の欠点を解決するために潜在動作を用いてタスク指向対話システムに強化学習(RL)を適用している。
本稿では,slを用いたリカレントアクションポリシを最適化する対話システム(dora)と,リカレント対話ポリシを用いた対話システムの最適化にrlを適用したマルチドメインタスク指向対話システムを提案する。
この対話ポリシーは、単語レベルとハイレベルの両方のポリシーとして明示的なシステムアクションを繰り返し生成する。
その結果、対話履歴全体ではなく、効率的なコンテキストを考慮した明示的なシステムアクションポリシーを用いることで、SLとRLの両方のステップにおいて、DORAは明確に最適化されている。
システムアクションは解釈可能かつ制御可能であるが、潜在アクションはそうではない。
DORAはMultiWOZ 2.0で6.6ポイント、MultiWOZ 2.1で10.9ポイント改善した。
関連論文リスト
- Planning Like Human: A Dual-process Framework for Dialogue Planning [31.995557540062553]
大規模言語モデル(LLM)における対話計画を強化するための2段階対話計画フレームワークを提案する。
心理学における二重過程理論に触発されて、直感的(高速)と分析的(スロー)の2つの思考様式を具現化した枠組みを提案する。
実験により,DPDPが高品質な対話と操作効率を両立し,既存手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-08T06:52:47Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Why Guided Dialog Policy Learning performs well? Understanding the role
of adversarial learning and its alternative [0.44267358790081573]
近年では、ダイアログポリシー学習(DPL)のための有望な選択肢として強化学習が登場している。
収集データから報酬を推定する方法の1つは、相手学習(AL)を用いて報酬推定器と対話ポリシーを同時に訓練することである。
本稿では,DPLにおけるALの役割を,ダイアログポリシと報酬推定器の目的関数の詳細な分析を通じて明らかにする。
本稿では,ALを報酬推定から排除し,その利点を保ちながらDPLを除去する手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T12:29:29Z) - Taming Continuous Posteriors for Latent Variational Dialogue Policies [1.0312968200748118]
我々は,潜在作用RLに対するガウス変分後部を再検討し,分類学よりも優れた性能が得られることを示す。
トレーニング手順を簡素化し、潜伏する対話ポリシーを標準化する方法を提案する。
論文 参考訳(メタデータ) (2022-05-16T12:50:32Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Distributed Structured Actor-Critic Reinforcement Learning for Universal
Dialogue Management [29.57382819573169]
我々は,ユーザに対応する対話行動を選択するポリシーの策定に重点を置いている。
逐次的なシステム決定プロセスは、部分的に観察可能なマルコフ決定プロセスに抽象化することができる。
過去数年間、ニューラルネットワーク(NN)を関数近似器として利用するディープ強化学習(DRL)アルゴリズムが数多く存在する。
論文 参考訳(メタデータ) (2020-09-22T05:39:31Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。