論文の概要: Distributed Structured Actor-Critic Reinforcement Learning for Universal
Dialogue Management
- arxiv url: http://arxiv.org/abs/2009.10326v1
- Date: Tue, 22 Sep 2020 05:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 22:26:05.457327
- Title: Distributed Structured Actor-Critic Reinforcement Learning for Universal
Dialogue Management
- Title(参考訳): ユニバーサル対話管理のための分散構造化アクタ-クリティック強化学習
- Authors: Zhi Chen, Lu Chen, Xiaoyuan Liu, and Kai Yu
- Abstract要約: 我々は,ユーザに対応する対話行動を選択するポリシーの策定に重点を置いている。
逐次的なシステム決定プロセスは、部分的に観察可能なマルコフ決定プロセスに抽象化することができる。
過去数年間、ニューラルネットワーク(NN)を関数近似器として利用するディープ強化学習(DRL)アルゴリズムが数多く存在する。
- 参考スコア(独自算出の注目度): 29.57382819573169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task-oriented spoken dialogue system (SDS) aims to assist a human user in
accomplishing a specific task (e.g., hotel booking). The dialogue management is
a core part of SDS. There are two main missions in dialogue management:
dialogue belief state tracking (summarising conversation history) and dialogue
decision-making (deciding how to reply to the user). In this work, we only
focus on devising a policy that chooses which dialogue action to respond to the
user. The sequential system decision-making process can be abstracted into a
partially observable Markov decision process (POMDP). Under this framework,
reinforcement learning approaches can be used for automated policy
optimization. In the past few years, there are many deep reinforcement learning
(DRL) algorithms, which use neural networks (NN) as function approximators,
investigated for dialogue policy.
- Abstract(参考訳): タスク指向音声対話システム(sds)は、特定のタスク(ホテル予約など)の達成を支援することを目的としている。
対話管理はSDSの中核部分である。
対話管理には2つの主要なミッションがある: 対話信条状態追跡(会話履歴の推測)と対話決定(ユーザへの返信方法の決定)である。
本研究は,ユーザに対して応答する対話行動を選択するポリシーの策定にのみ焦点をあてる。
逐次的なシステム決定プロセスは、部分的に観測可能なマルコフ決定プロセス(POMDP)に抽象化することができる。
このフレームワークでは、強化学習アプローチをポリシの自動最適化に使用できる。
過去数年間、ニューラルネットワーク(nn)を関数近似器として使用する深層強化学習(drl)アルゴリズムが対話政策として研究されている。
関連論文リスト
- OmniDialog: An Omnipotent Pre-training Model for Task-Oriented Dialogue
System [43.92593448255296]
我々はOmnipotent Dialogue pre-training model(OmniDialog)を提案する。
3つの対話タスクをマルチタスク学習によってモノリシックなフレームワークに統合し、タスク間通信を促進する。
対話の要約、エンドツーエンドの対話モデリング、対話状態追跡、意図分類の4つのタスクでその性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T07:20:49Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Why Guided Dialog Policy Learning performs well? Understanding the role
of adversarial learning and its alternative [0.44267358790081573]
近年では、ダイアログポリシー学習(DPL)のための有望な選択肢として強化学習が登場している。
収集データから報酬を推定する方法の1つは、相手学習(AL)を用いて報酬推定器と対話ポリシーを同時に訓練することである。
本稿では,DPLにおけるALの役割を,ダイアログポリシと報酬推定器の目的関数の詳細な分析を通じて明らかにする。
本稿では,ALを報酬推定から排除し,その利点を保ちながらDPLを除去する手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T12:29:29Z) - Dialog-to-Actions: Building Task-Oriented Dialogue System via
Action-Level Generation [7.110201160927713]
本稿では,アクションレベル生成によるタスク指向対話システムを提案する。
具体的には、まず大規模な対話から対話行動を構築し、対話行動のシーケンスとして各自然言語(NL)応答を表現する。
本研究では,対話履歴を入力とし,対話行動のシーケンスを出力するシーケンス・ツー・シーケンスモデルを訓練する。
論文 参考訳(メタデータ) (2023-04-03T11:09:20Z) - User Satisfaction Estimation with Sequential Dialogue Act Modeling in
Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。
USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。
4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-07T02:50:07Z) - UniDS: A Unified Dialogue System for Chit-Chat and Task-oriented
Dialogues [59.499965460525694]
上記の2つのスキルを備えた統合対話システム(UniDS)を提案する。
我々は、チャットとタスク指向の対話の両方に対応可能な統合対話データスキーマを設計する。
我々は、事前訓練されたチャット対話モデルから混合対話データでUniDSを訓練する。
論文 参考訳(メタデータ) (2021-10-15T11:56:47Z) - Integrating Pre-trained Model into Rule-based Dialogue Management [32.90885176553305]
ルールベースの対話管理は、まだ産業用タスク指向対話システムのための最も人気のあるソリューションです。
データ駆動対話システム(通常はエンドツーエンド構造)は学術研究で人気がある。
本稿ではルールベースとデータ駆動型ダイアログマネージャの長所を活用する手法を提案する。
論文 参考訳(メタデータ) (2021-02-17T03:44:22Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - A Survey on Dialog Management: Recent Advances and Challenges [72.52920723074638]
ダイアログ管理(DM)はタスク指向ダイアログシステムにおいて重要なコンポーネントである。
1)新しいシナリオにおけるダイアログシステムモデリングを容易にするためのモデルスケーラビリティの改善,(2)ダイアログポリシー学習におけるデータ不足問題への対処,(3)タスク補完性能を向上させるためのトレーニング効率の向上。
論文 参考訳(メタデータ) (2020-05-05T14:31:24Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。