論文の概要: Guided Dialog Policy Learning without Adversarial Learning in the Loop
- arxiv url: http://arxiv.org/abs/2004.03267v2
- Date: Wed, 16 Sep 2020 20:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 22:52:55.297749
- Title: Guided Dialog Policy Learning without Adversarial Learning in the Loop
- Title(参考訳): ループ内の逆学習を伴わないガイド付きダイアログポリシー学習
- Authors: Ziming Li, Sungjin Lee, Baolin Peng, Jinchao Li, Julia Kiseleva,
Maarten de Rijke, Shahin Shayandeh, Jianfeng Gao
- Abstract要約: 対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
- 参考スコア(独自算出の注目度): 103.20723982440788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) methods have emerged as a popular choice for
training an efficient and effective dialogue policy. However, these methods
suffer from sparse and unstable reward signals returned by a user simulator
only when a dialogue finishes. Besides, the reward signal is manually designed
by human experts, which requires domain knowledge. Recently, a number of
adversarial learning methods have been proposed to learn the reward function
together with the dialogue policy. However, to alternatively update the
dialogue policy and the reward model on the fly, we are limited to
policy-gradient-based algorithms, such as REINFORCE and PPO. Moreover, the
alternating training of a dialogue agent and the reward model can easily get
stuck in local optima or result in mode collapse. To overcome the listed
issues, we propose to decompose the adversarial training into two steps. First,
we train the discriminator with an auxiliary dialogue generator and then
incorporate a derived reward model into a common RL method to guide the
dialogue policy learning. This approach is applicable to both on-policy and
off-policy RL methods. Based on our extensive experimentation, we can conclude
the proposed method: (1) achieves a remarkable task success rate using both
on-policy and off-policy RL methods; and (2) has the potential to transfer
knowledge from existing domains to a new domain.
- Abstract(参考訳): 強化学習(RL)手法は,効果的な対話政策を訓練するための一般的な選択肢である。
しかし,これらの手法は,対話終了時にのみユーザシミュレータによって返される,スパースで不安定な報奨信号に苦しむ。
さらに報酬信号は、ドメイン知識を必要とする人間の専門家によって手動で設計される。
近年,対話政策とともに報酬関数を学習するための敵対的学習手法が数多く提案されている。
しかし、対話ポリシーや報酬モデルを即時に更新するためには、REINFORCEやPPOといったポリシー段階のアルゴリズムに制限される。
さらに、対話エージェントと報酬モデルとの交替訓練は、局所最適で簡単に立ち往生したり、あるいはモード崩壊を招く。
上記の課題を克服するため,我々は,敵の訓練を2つのステップに分割することを提案する。
まず, 補助対話生成器を用いて判別器を訓練し, 得られた報酬モデルを共通rl法に組み込んで, 対話政策学習の指導を行う。
このアプローチはオン・ポリシー法とオフ・ポリシー・rl法の両方に適用できる。
提案手法は, 大規模に実験した結果から, 1) 既存のドメインから新たなドメインに知識を移譲する可能性があり, オン・ポリティィ法とオフ・ポリティィ法の両方を用いて, 目覚ましいタスク成功率を達成することができる。
関連論文リスト
- JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Why Guided Dialog Policy Learning performs well? Understanding the role
of adversarial learning and its alternative [0.44267358790081573]
近年では、ダイアログポリシー学習(DPL)のための有望な選択肢として強化学習が登場している。
収集データから報酬を推定する方法の1つは、相手学習(AL)を用いて報酬推定器と対話ポリシーを同時に訓練することである。
本稿では,DPLにおけるALの役割を,ダイアログポリシと報酬推定器の目的関数の詳細な分析を通じて明らかにする。
本稿では,ALを報酬推定から排除し,その利点を保ちながらDPLを除去する手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T12:29:29Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Integrating Pretrained Language Model for Dialogue Policy Learning [23.453017883791237]
強化学習(Reinforcement Learning, RL)は、ユーザからの報酬の蓄積を最大化するための対話政策エージェントを訓練する可能性として目撃されている。
1) 事前学習した言語モデルを識別器として統合し、現在のシステム動作が最終ユーザ動作に十分であるかどうかを判断する。
実験結果から,本手法は対話システムの完全率 (4.4%) と成功率 (8.0%) を有意に向上させることが示された。
論文 参考訳(メタデータ) (2021-11-02T07:16:03Z) - Causal-aware Safe Policy Improvement for Task-oriented dialogue [45.88777832381149]
我々はタスク指向対話政策学習のためのバッチrlフレームワークを提案する:causal safe policy improvement (caspi)
Multiwoz2.0データセットの対話対テキスト生成およびエンドツーエンド対話タスクにおけるこのフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-10T22:34:28Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Semi-Supervised Dialogue Policy Learning via Stochastic Reward
Estimation [33.688270031454095]
我々は、ターンバイターンの報酬を提供するための最適なポリシーのステートアクションペアから学ぶために報酬学習を導入する。
このアプローチには、人間対人間対話の完全なステートアクションアノテーションが必要である。
半教師付き政策学習のための新たな報酬学習手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T06:28:44Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。