論文の概要: Imperfect also Deserves Reward: Multi-Level and Sequential Reward
Modeling for Better Dialog Management
- arxiv url: http://arxiv.org/abs/2104.04748v1
- Date: Sat, 10 Apr 2021 12:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:43:03.616424
- Title: Imperfect also Deserves Reward: Multi-Level and Sequential Reward
Modeling for Better Dialog Management
- Title(参考訳): ImperfectはRewardも保存する: より良いダイアログ管理のためのマルチレベルおよびシークエンシャルリワードモデリング
- Authors: Zhengxu Hou, Bang Liu, Ruihui Zhao, Zijing Ou, Yafei Liu, Xi Chen,
Yefeng Zheng
- Abstract要約: タスク指向ダイアログシステムでは、強化学習ベースのダイアログ管理モジュールのトレーニングは、rlのスパース報酬によるサンプル効率の低下と収束速度の低下に苦しむ。
我々は,報酬をドメイン,アクタ,スロットという3レベル階層に分解する多段階報酬モデリング手法を提案する。
- 参考スコア(独自算出の注目度): 17.168214640974337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For task-oriented dialog systems, training a Reinforcement Learning (RL)
based Dialog Management module suffers from low sample efficiency and slow
convergence speed due to the sparse rewards in RL.To solve this problem, many
strategies have been proposed to give proper rewards when training RL, but
their rewards lack interpretability and cannot accurately estimate the
distribution of state-action pairs in real dialogs. In this paper, we propose a
multi-level reward modeling approach that factorizes a reward into a
three-level hierarchy: domain, act, and slot. Based on inverse adversarial
reinforcement learning, our designed reward model can provide more accurate and
explainable reward signals for state-action pairs.Extensive evaluations show
that our approach can be applied to a wide range of reinforcement
learning-based dialog systems and significantly improves both the performance
and the speed of convergence.
- Abstract(参考訳): タスク指向ダイアログシステムでは、RLのスパース報酬によるサンプル効率の低下と収束速度の低下に苦しむReinforcement Learning(RL)ベースのダイアログ管理モジュールをトレーニングする場合、RLのトレーニング時に適切な報酬を与えるための多くの戦略が提案されているが、その報酬は解釈可能性に欠け、実際のダイアログにおける状態-動作ペアの分布を正確に見積もることはできない。
本稿では,報酬をドメイン,アクタ,スロットという3つの階層に分解する多段階報酬モデリング手法を提案する。
提案手法は, 逆敵強化学習に基づき, ステートアクションペアに対してより正確かつ説明可能な報奨信号を与えることができ, 拡張的評価により, 幅広い強化学習に基づく対話システムに適用でき, 性能と収束速度が大幅に向上することを示す。
関連論文リスト
- Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue [17.47550065558479]
強化学習(RL)はタスク指向対話(TOD)システムを強化するための強力なアプローチである。
既存のRL手法は主に生成タスクに焦点を合わせ、理解のために対話状態追跡(DST)を無視する傾向にある。
トークン生成全体でステップバイステップの報酬を導入し、RLを理解タスクと生成タスクの両方に拡張する。
論文 参考訳(メタデータ) (2024-06-20T16:15:40Z) - Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback [71.55265615594669]
本稿では,LLMに基づく対話エージェントをグローバルな(対話レベル)報酬に基づいて整列する手法について述べるとともに,自然に発生するマルチモーダル信号も考慮する。
我々は,GELI手法の性能を評価するために定量的,質的な人間の研究を行い,ベースライン手法と比較して,様々な対話的指標に一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T20:21:26Z) - Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability [1.0985060632689174]
本研究の目的は,本研究の本質的な動機づけ強化学習アルゴリズムを検討することである。
我々は,ランダムなネットワーク蒸留と好奇心駆動型強化学習に適応して,国家訪問頻度を測定する。
不均質なデータセットであるMultiWOZの実験結果は、本質的なモチベーションに基づく議論システムは、外生的なインセンティブに依存する政策より優れていることを示している。
論文 参考訳(メタデータ) (2024-01-31T18:03:39Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Taming Continuous Posteriors for Latent Variational Dialogue Policies [1.0312968200748118]
我々は,潜在作用RLに対するガウス変分後部を再検討し,分類学よりも優れた性能が得られることを示す。
トレーニング手順を簡素化し、潜伏する対話ポリシーを標準化する方法を提案する。
論文 参考訳(メタデータ) (2022-05-16T12:50:32Z) - Integrating Pretrained Language Model for Dialogue Policy Learning [23.453017883791237]
強化学習(Reinforcement Learning, RL)は、ユーザからの報酬の蓄積を最大化するための対話政策エージェントを訓練する可能性として目撃されている。
1) 事前学習した言語モデルを識別器として統合し、現在のシステム動作が最終ユーザ動作に十分であるかどうかを判断する。
実験結果から,本手法は対話システムの完全率 (4.4%) と成功率 (8.0%) を有意に向上させることが示された。
論文 参考訳(メタデータ) (2021-11-02T07:16:03Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Semi-Supervised Dialogue Policy Learning via Stochastic Reward
Estimation [33.688270031454095]
我々は、ターンバイターンの報酬を提供するための最適なポリシーのステートアクションペアから学ぶために報酬学習を導入する。
このアプローチには、人間対人間対話の完全なステートアクションアノテーションが必要である。
半教師付き政策学習のための新たな報酬学習手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T06:28:44Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。