論文の概要: Anti-Overestimation Dialogue Policy Learning for Task-Completion Dialogue System
- arxiv url: http://arxiv.org/abs/2207.11762v2
- Date: Sat, 13 Apr 2024 11:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 03:19:56.120482
- Title: Anti-Overestimation Dialogue Policy Learning for Task-Completion Dialogue System
- Title(参考訳): タスク完了対話システムにおける反推定対話ポリシー学習
- Authors: Chang Tian, Wenpeng Yin, Marie-Francine Moens,
- Abstract要約: 過大評価問題は、強化学習(RL)に基づく対話政策において広く知られている問題である。
本稿では,基底真理最大作用値の動的部分平均推定器(DPAV)を提案する。
DPAVは、予測された最大アクション値と最小アクション値との間の部分平均を計算する。
- 参考スコア(独自算出の注目度): 30.913889376795673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A dialogue policy module is an essential part of task-completion dialogue systems. Recently, increasing interest has focused on reinforcement learning (RL)-based dialogue policy. Its favorable performance and wise action decisions rely on an accurate estimation of action values. The overestimation problem is a widely known issue of RL since its estimate of the maximum action value is larger than the ground truth, which results in an unstable learning process and suboptimal policy. This problem is detrimental to RL-based dialogue policy learning. To mitigate this problem, this paper proposes a dynamic partial average estimator (DPAV) of the ground truth maximum action value. DPAV calculates the partial average between the predicted maximum action value and minimum action value, where the weights are dynamically adaptive and problem-dependent. We incorporate DPAV into a deep Q-network as the dialogue policy and show that our method can achieve better or comparable results compared to top baselines on three dialogue datasets of different domains with a lower computational load. In addition, we also theoretically prove the convergence and derive the upper and lower bounds of the bias compared with those of other methods.
- Abstract(参考訳): 対話ポリシーモジュールはタスク補完対話システムにおいて不可欠な部分である。
近年,強化学習(RL)に基づく対話政策への関心が高まっている。
その好ましいパフォーマンスと賢明なアクション決定は、アクション値の正確な推定に依存する。
過大評価問題は、最大作用値の推定が基礎的真理よりも大きく、不安定な学習プロセスと準最適政策をもたらすため、RLの広く知られている問題である。
この問題は、RLに基づく対話ポリシー学習に有害である。
この問題を軽減するために,本研究では,基底真理最大作用値の動的部分平均推定器(DPAV)を提案する。
DPAVは、予測された最大アクション値と最小アクション値との間の部分平均を計算する。
我々はDPAVを対話ポリシーとして深くQ-networkに組み込み、計算負荷の少ない3つのドメインの対話データセットの上位ベースラインよりも優れた、あるいは同等の結果が得られることを示す。
さらに、理論的には収束を証明し、他の方法と比較してバイアスの上と下の境界を導出する。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Why Guided Dialog Policy Learning performs well? Understanding the role
of adversarial learning and its alternative [0.44267358790081573]
近年では、ダイアログポリシー学習(DPL)のための有望な選択肢として強化学習が登場している。
収集データから報酬を推定する方法の1つは、相手学習(AL)を用いて報酬推定器と対話ポリシーを同時に訓練することである。
本稿では,DPLにおけるALの役割を,ダイアログポリシと報酬推定器の目的関数の詳細な分析を通じて明らかにする。
本稿では,ALを報酬推定から排除し,その利点を保ちながらDPLを除去する手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T12:29:29Z) - Deep RL with Hierarchical Action Exploration for Dialogue Generation [0.0]
本稿では,対話ポリシーの性能がサンプリングサイズと正の相関関係にあることを示す理論的解析と実験について述べる。
サンプリングプロセスにおいて最も有望な応答カテゴリを探索する新しい二重粒度Q関数を導入する。
提案アルゴリズムは, 説明可能性と制御性の両方を示し, 期待値の高い応答を生成する。
論文 参考訳(メタデータ) (2023-03-22T09:29:22Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - What Does The User Want? Information Gain for Hierarchical Dialogue
Policy Optimisation [3.1433893853959605]
強化学習(RL)による最適化は、非効率性と不安定性のサンプリングに影響を受けやすい。
本稿では,この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。
FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-15T07:21:26Z) - Active Offline Policy Selection [19.18251239758809]
本稿では,ログデータの多いドメインにおけるポリシ選択の問題に対処するが,インタラクション予算が非常に制限されている。
ログデータのみを用いてポリシーの価値を評価するために、いくつかのオフ・ポリティクス・アセスメント(OPE)技術が提案されている。
本稿では、ログデータとオンラインインタラクションの制限を組み合わさって、最適なポリシーを識別する、新しい緊急オフラインポリシー選択問題の定式化を導入する。
論文 参考訳(メタデータ) (2021-06-18T17:33:13Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。