論文の概要: A Survey on Recent Advances and Challenges in Reinforcement
LearningMethods for Task-Oriented Dialogue Policy Learning
- arxiv url: http://arxiv.org/abs/2202.13675v1
- Date: Mon, 28 Feb 2022 10:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 16:50:48.956465
- Title: A Survey on Recent Advances and Challenges in Reinforcement
LearningMethods for Task-Oriented Dialogue Policy Learning
- Title(参考訳): タスク指向対話政策学習における強化学習手法の最近の進歩と課題
- Authors: Wai-Chung Kwan, Hongru Wang, Huimin Wang, Kam-Fai Wong
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ユーザが環境として、システムがエージェントとして、対話ポリシーを学ぶために一般的に選択される。
本稿では,RLの規範に基づく対話政策の最近の進歩と課題について調査する。
本稿では,最新の手法をRLの基本要素に分類することで,対話政策学習にRLを適用するための総合的な調査を行う。
- 参考スコア(独自算出の注目度): 16.545577313042827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue Policy Learning is a key component in a task-oriented dialogue
system (TDS) that decides the next action of the system given the dialogue
state at each turn. Reinforcement Learning (RL) is commonly chosen to learn the
dialogue policy, regarding the user as the environment and the system as the
agent. Many benchmark datasets and algorithms have been created to facilitate
the development and evaluation of dialogue policy based on RL. In this paper,
we survey recent advances and challenges in dialogue policy from the
prescriptive of RL. More specifically, we identify the major problems and
summarize corresponding solutions for RL-based dialogue policy learning.
Besides, we provide a comprehensive survey of applying RL to dialogue policy
learning by categorizing recent methods into basic elements in RL. We believe
this survey can shed a light on future research in dialogue management.
- Abstract(参考訳): 対話政策学習はタスク指向対話システム(tds)における重要な構成要素であり、各ターンにおける対話状態が与えられたシステムの次の動作を決定する。
強化学習(rl)は、ユーザが環境として、システムがエージェントとして、対話ポリシーを学ぶために選択される。
RLに基づく対話ポリシーの開発と評価を容易にするため,多くのベンチマークデータセットとアルゴリズムが作成されている。
本稿では,RLの規範に基づく対話政策の最近の進歩と課題について調査する。
より具体的には、RLに基づく対話ポリシー学習における主要な問題を特定し、対応するソリューションを要約する。
さらに,最近の手法をRLの基本要素に分類することで,対話政策学習にRLを適用するための総合的な調査を行う。
この調査は,対話管理における今後の研究に光を当てることができると考えている。
関連論文リスト
- A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems [12.999001024463453]
本稿では,既存のLLMの概要と,下流タスクにLLMを適用するためのアプローチを提案する。
LLMベースのオープンドメイン対話(ODD)とタスク指向対話(TOD)の両方をカバーするマルチターン対話システムにおける最近の進歩を詳述する。
論文 参考訳(メタデータ) (2024-02-28T03:16:44Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Why Guided Dialog Policy Learning performs well? Understanding the role
of adversarial learning and its alternative [0.44267358790081573]
近年では、ダイアログポリシー学習(DPL)のための有望な選択肢として強化学習が登場している。
収集データから報酬を推定する方法の1つは、相手学習(AL)を用いて報酬推定器と対話ポリシーを同時に訓練することである。
本稿では,DPLにおけるALの役割を,ダイアログポリシと報酬推定器の目的関数の詳細な分析を通じて明らかにする。
本稿では,ALを報酬推定から排除し,その利点を保ちながらDPLを除去する手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T12:29:29Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - A Survey on Proactive Dialogue Systems: Problems, Methods, and Prospects [100.75759050696355]
本稿では,対話エージェントの多種多様な対話における能動性に関する顕著な問題と先進的な設計について概説する。
我々は、現実世界のアプリケーションのニーズを満たすが、将来もっと研究に焦点を当てる必要がある課題について議論する。
論文 参考訳(メタデータ) (2023-05-04T11:38:49Z) - Distributed Structured Actor-Critic Reinforcement Learning for Universal
Dialogue Management [29.57382819573169]
我々は,ユーザに対応する対話行動を選択するポリシーの策定に重点を置いている。
逐次的なシステム決定プロセスは、部分的に観察可能なマルコフ決定プロセスに抽象化することができる。
過去数年間、ニューラルネットワーク(NN)を関数近似器として利用するディープ強化学習(DRL)アルゴリズムが数多く存在する。
論文 参考訳(メタデータ) (2020-09-22T05:39:31Z) - A Survey on Dialog Management: Recent Advances and Challenges [72.52920723074638]
ダイアログ管理(DM)はタスク指向ダイアログシステムにおいて重要なコンポーネントである。
1)新しいシナリオにおけるダイアログシステムモデリングを容易にするためのモデルスケーラビリティの改善,(2)ダイアログポリシー学習におけるデータ不足問題への対処,(3)タスク補完性能を向上させるためのトレーニング効率の向上。
論文 参考訳(メタデータ) (2020-05-05T14:31:24Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z) - Recent Advances and Challenges in Task-oriented Dialog System [63.82055978899631]
課題指向対話システムは、学術・産業社会でますます注目を集めている。
タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。(1)低リソース環境でのダイアログモデリングを容易にするデータ効率の改善、(2)ダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、(3)ダイアログモデルへのドメイン知識の統合。
論文 参考訳(メタデータ) (2020-03-17T01:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。