論文の概要: Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability
- arxiv url: http://arxiv.org/abs/2401.18040v2
- Date: Mon, 25 Mar 2024 23:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 21:53:51.219306
- Title: Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability
- Title(参考訳): エンド・ツー・エンドマルチタスク対話システムの強化:訓練と適応性向上のための本質的動機強化学習アルゴリズムの検討
- Authors: Navin Kamuni, Hardik Shah, Sathishkumar Chintala, Naveen Kunchakuri, Sujatha Alla Old Dominion,
- Abstract要約: 本研究の目的は,本研究の本質的な動機づけ強化学習アルゴリズムを検討することである。
我々は,ランダムなネットワーク蒸留と好奇心駆動型強化学習に適応して,国家訪問頻度を測定する。
不均質なデータセットであるMultiWOZの実験結果は、本質的なモチベーションに基づく議論システムは、外生的なインセンティブに依存する政策より優れていることを示している。
- 参考スコア(独自算出の注目度): 1.0985060632689174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end multi-task dialogue systems are usually designed with separate modules for the dialogue pipeline. Among these, the policy module is essential for deciding what to do in response to user input. This policy is trained by reinforcement learning algorithms by taking advantage of an environment in which an agent receives feedback in the form of a reward signal. The current dialogue systems, however, only provide meagre and simplistic rewards. Investigating intrinsic motivation reinforcement learning algorithms is the goal of this study. Through this, the agent can quickly accelerate training and improve its capacity to judge the quality of its actions by teaching it an internal incentive system. In particular, we adapt techniques for random network distillation and curiosity-driven reinforcement learning to measure the frequency of state visits and encourage exploration by using semantic similarity between utterances. Experimental results on MultiWOZ, a heterogeneous dataset, show that intrinsic motivation-based debate systems outperform policies that depend on extrinsic incentives. By adopting random network distillation, for example, which is trained using semantic similarity between user-system dialogues, an astounding average success rate of 73% is achieved. This is a significant improvement over the baseline Proximal Policy Optimization (PPO), which has an average success rate of 60%. In addition, performance indicators such as booking rates and completion rates show a 10% rise over the baseline. Furthermore, these intrinsic incentive models help improve the system's policy's resilience in an increasing amount of domains. This implies that they could be useful in scaling up to settings that cover a wider range of domains.
- Abstract(参考訳): エンドツーエンドのマルチタスク対話システムは、通常、対話パイプライン用の別々のモジュールで設計される。
これらの中、ポリシーモジュールは、ユーザの入力に応じて何をするかを決定するために不可欠である。
このポリシーは、エージェントが報酬信号の形でフィードバックを受ける環境を利用して、強化学習アルゴリズムによって訓練される。
しかし、現在の対話システムは、明快で簡潔な報酬しか提供していない。
本研究の目的は,本研究の本質的なモチベーション強化学習アルゴリズムを検討することである。
これにより、エージェントは、迅速に訓練を加速し、内部インセンティブシステムを教えることにより、その行動の質を判断する能力を向上させることができる。
特に,ランダムネットワーク蒸留と好奇心駆動型強化学習の手法を応用し,発話間の意味的類似性を利用して,国家訪問の頻度を測定し,探索を促進する。
不均質なデータセットであるMultiWOZの実験結果は、本質的なモチベーションに基づく議論システムは、外生的なインセンティブに依存する政策より優れていることを示している。
例えば,ユーザシステム対話間の意味的類似性を用いて訓練されたランダムネットワーク蒸留を採用することにより,驚くべき平均成功率は73%に達する。
これは、平均成功率60%のベースラインであるPPO(Proximal Policy Optimization)よりも大幅に改善されている。
さらに、予約率や完了率などのパフォーマンス指標は、ベースラインよりも10%上昇している。
さらに、これらの本質的なインセンティブモデルは、より多くのドメインにおいてシステムのポリシーのレジリエンスを改善するのに役立ちます。
これは、より広い範囲のドメインをカバーする設定までスケールアップするのに有用であることを意味する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Black box meta-learning intrinsic rewards for sparse-reward environments [0.0]
本研究では,RLエージェントが受信した学習信号がメタラーニングによってどのように改善されるかを検討する。
我々は,この手法をメタ学習の利点関数と外因性報酬を用いて分析・比較する。
開発したアルゴリズムはパラメトリックと非パラメトリックの双方で連続制御タスクの分布を評価する。
論文 参考訳(メタデータ) (2024-07-31T12:09:33Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Evaluating and Improving Context Attention Distribution on Multi-Turn
Response Generation using Self-Contained Distractions [0.18275108630751835]
我々は,マルチターン生成に基づく会話エージェントの本質的構成要素であるコンテキストアテンション分布に着目した。
このコンポーネントの性能向上のために,自己完結型散逸を利用した最適化戦略を提案する。
Ubuntuのチャットログデータセットを用いた実験により,コンテクストアテンション分布において,同等のパープレキシティを持つモデルを識別できることが判明した。
論文 参考訳(メタデータ) (2022-11-09T15:12:20Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Imperfect also Deserves Reward: Multi-Level and Sequential Reward
Modeling for Better Dialog Management [17.168214640974337]
タスク指向ダイアログシステムでは、強化学習ベースのダイアログ管理モジュールのトレーニングは、rlのスパース報酬によるサンプル効率の低下と収束速度の低下に苦しむ。
我々は,報酬をドメイン,アクタ,スロットという3レベル階層に分解する多段階報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-10T12:20:23Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Variational Reward Estimator Bottleneck: Learning Robust Reward
Estimator for Multi-Domain Task-Oriented Dialog [4.839823737587605]
変分残差推定器(VRB)は,入力と報奨推定器の間の非生産的情報フローの抑制を目的とした効果的な正規化手法である。
VRBは、相互情報のボトルネックを利用して、差別的な特徴を捉えることに焦点を当てている。
マルチドメインタスク指向ダイアログデータセットの実証結果から,VRBが従来の手法よりも大幅に優れていたことが確認された。
論文 参考訳(メタデータ) (2020-05-31T02:44:36Z) - Value Driven Representation for Human-in-the-Loop Reinforcement Learning [33.79501890330252]
我々は,システム設計者が,強化学習エージェントが使用する観測空間を定義するために,センサセットや特徴セットを選択する方法のアルゴリズム的基礎に焦点をあてる。
本稿では、強化学習エージェントの観測空間を反復的かつ適応的に拡張するアルゴリズム、値駆動表現(VDR)を提案する。
シミュレーションされた人間を用いた標準RLベンチマークによる手法の性能評価を行い、従来のベースラインよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-04-02T18:45:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。