論文の概要: Semi-Supervised Dialogue Policy Learning via Stochastic Reward
Estimation
- arxiv url: http://arxiv.org/abs/2005.04379v1
- Date: Sat, 9 May 2020 06:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 06:34:43.102279
- Title: Semi-Supervised Dialogue Policy Learning via Stochastic Reward
Estimation
- Title(参考訳): 確率的回帰推定による半教師付き対話政策学習
- Authors: Xinting Huang, Jianzhong Qi, Yu Sun, Rui Zhang
- Abstract要約: 我々は、ターンバイターンの報酬を提供するための最適なポリシーのステートアクションペアから学ぶために報酬学習を導入する。
このアプローチには、人間対人間対話の完全なステートアクションアノテーションが必要である。
半教師付き政策学習のための新たな報酬学習手法を提案する。
- 参考スコア(独自算出の注目度): 33.688270031454095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue policy optimization often obtains feedback until task completion in
task-oriented dialogue systems. This is insufficient for training intermediate
dialogue turns since supervision signals (or rewards) are only provided at the
end of dialogues. To address this issue, reward learning has been introduced to
learn from state-action pairs of an optimal policy to provide turn-by-turn
rewards. This approach requires complete state-action annotations of
human-to-human dialogues (i.e., expert demonstrations), which is labor
intensive. To overcome this limitation, we propose a novel reward learning
approach for semi-supervised policy learning. The proposed approach learns a
dynamics model as the reward function which models dialogue progress (i.e.,
state-action sequences) based on expert demonstrations, either with or without
annotations. The dynamics model computes rewards by predicting whether the
dialogue progress is consistent with expert demonstrations. We further propose
to learn action embeddings for a better generalization of the reward function.
The proposed approach outperforms competitive policy learning baselines on
MultiWOZ, a benchmark multi-domain dataset.
- Abstract(参考訳): 対話政策最適化はタスク指向対話システムにおいてタスク完了までフィードバックを得ることが多い。
これは、対話の終わりにのみ監視信号(または報酬)が提供されるため、中間対話の訓練には不十分である。
この問題に対処するために、報酬学習を導入して、ターンバイターン報酬を提供する最適なポリシーのステートアクションペアから学ぶ。
このアプローチには、労働集約的な人間対人間の対話(専門家によるデモンストレーション)の完全なステートアクションアノテーションが必要である。
この制限を克服するために,半教師付き政策学習のための新しい報酬学習手法を提案する。
提案手法は、アノテーションの有無に関わらず、専門家によるデモンストレーションに基づいて対話進行(すなわち状態動作シーケンス)をモデル化する報奨関数としてダイナミクスモデルを学ぶ。
ダイナミクスモデルは、対話の進行が専門家のデモンストレーションと一致しているかどうかを予測することで報酬を計算する。
さらに、報酬関数をより一般化するためにアクション埋め込みを学ぶことを提案する。
提案手法は、ベンチマークマルチドメインデータセットであるmultiwozの競合ポリシー学習ベースラインを上回っている。
関連論文リスト
- Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback [71.55265615594669]
本稿では,LLMに基づく対話エージェントをグローバルな(対話レベル)報酬に基づいて整列する手法について述べるとともに,自然に発生するマルチモーダル信号も考慮する。
我々は,GELI手法の性能を評価するために定量的,質的な人間の研究を行い,ベースライン手法と比較して,様々な対話的指標に一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T20:21:26Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Why Guided Dialog Policy Learning performs well? Understanding the role
of adversarial learning and its alternative [0.44267358790081573]
近年では、ダイアログポリシー学習(DPL)のための有望な選択肢として強化学習が登場している。
収集データから報酬を推定する方法の1つは、相手学習(AL)を用いて報酬推定器と対話ポリシーを同時に訓練することである。
本稿では,DPLにおけるALの役割を,ダイアログポリシと報酬推定器の目的関数の詳細な分析を通じて明らかにする。
本稿では,ALを報酬推定から排除し,その利点を保ちながらDPLを除去する手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T12:29:29Z) - Taming Continuous Posteriors for Latent Variational Dialogue Policies [1.0312968200748118]
我々は,潜在作用RLに対するガウス変分後部を再検討し,分類学よりも優れた性能が得られることを示す。
トレーニング手順を簡素化し、潜伏する対話ポリシーを標準化する方法を提案する。
論文 参考訳(メタデータ) (2022-05-16T12:50:32Z) - Integrating Pretrained Language Model for Dialogue Policy Learning [23.453017883791237]
強化学習(Reinforcement Learning, RL)は、ユーザからの報酬の蓄積を最大化するための対話政策エージェントを訓練する可能性として目撃されている。
1) 事前学習した言語モデルを識別器として統合し、現在のシステム動作が最終ユーザ動作に十分であるかどうかを判断する。
実験結果から,本手法は対話システムの完全率 (4.4%) と成功率 (8.0%) を有意に向上させることが示された。
論文 参考訳(メタデータ) (2021-11-02T07:16:03Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。