論文の概要: Automatic Curriculum Learning With Over-repetition Penalty for Dialogue
Policy Learning
- arxiv url: http://arxiv.org/abs/2012.14072v1
- Date: Mon, 28 Dec 2020 02:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 11:14:06.051589
- Title: Automatic Curriculum Learning With Over-repetition Penalty for Dialogue
Policy Learning
- Title(参考訳): 対話政策学習のための過度反復ペナルティによるカリキュラム自動学習
- Authors: Yangyang Zhao, Zhenyu Wang and Zhenhua Huang
- Abstract要約: ACL-DQN(Automatic Curriculum Learning-based Deep Q-Network)という新しいフレームワークを提案し,自動カリキュラム学習のための対話方針を実現する。
教師モデルは、有意義な順序のカリキュラムを配置し、対話エージェントの学習進捗を監視して自動的に調整する。
実験により,ACL-DQNは,統計的に有意なマージンを有する対話タスクの有効性と安定性を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 8.744026064255337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue policy learning based on reinforcement learning is difficult to be
applied to real users to train dialogue agents from scratch because of the high
cost. User simulators, which choose random user goals for the dialogue agent to
train on, have been considered as an affordable substitute for real users.
However, this random sampling method ignores the law of human learning, making
the learned dialogue policy inefficient and unstable. We propose a novel
framework, Automatic Curriculum Learning-based Deep Q-Network (ACL-DQN), which
replaces the traditional random sampling method with a teacher policy model to
realize the dialogue policy for automatic curriculum learning. The teacher
model arranges a meaningful ordered curriculum and automatically adjusts it by
monitoring the learning progress of the dialogue agent and the over-repetition
penalty without any requirement of prior knowledge. The learning progress of
the dialogue agent reflects the relationship between the dialogue agent's
ability and the sampled goals' difficulty for sample efficiency. The
over-repetition penalty guarantees the sampled diversity. Experiments show that
the ACL-DQN significantly improves the effectiveness and stability of dialogue
tasks with a statistically significant margin. Furthermore, the framework can
be further improved by equipping with different curriculum schedules, which
demonstrates that the framework has strong generalizability.
- Abstract(参考訳): 強化学習に基づく対話政策学習は,コストが高いため,実ユーザに対して対話エージェントをスクラッチから訓練することは困難である。
対話エージェントがトレーニングするランダムなユーザ目標を選択するユーザシミュレータは、実際のユーザにとって手頃な代用だと考えられている。
しかし、このランダムサンプリング法は人間の学習法則を無視し、学習された対話ポリシーを非効率で不安定にする。
本稿では,従来のランダムサンプリング手法を教師ポリシーモデルに置き換え,自動カリキュラム学習のための対話ポリシーを実現する新しいフレームワークであるDeep Q-Network (ACL-DQN)を提案する。
教師モデルは、有意義な順序付きカリキュラムを配置し、対話エージェントの学習進捗と過剰反復ペナルティを事前の知識を必要とせずに監視し、自動的に調整する。
対話エージェントの学習の進捗は,対話エージェントの能力とサンプル効率に対するサンプルゴールの難易度との関係を反映している。
過剰反復罰はサンプルの多様性を保証する。
実験により,ACL-DQNは,統計的に有意なマージンを有する対話タスクの有効性と安定性を著しく向上することが示された。
さらに、異なるカリキュラムスケジュールを採用してフレームワークをさらに改善することができ、フレームワークが強力な汎用性を持つことを実証する。
関連論文リスト
- Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust
Conversational Modeling [3.3578533367912025]
本稿では,対話コンテキストの拡張バージョンを学習目的に組み込むフレームワークを提案する。
提案手法は,従来のデータ拡張手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-15T23:39:41Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Adaptive Dialog Policy Learning with Hindsight and User Modeling [10.088347529930129]
シミュレーションと実ユーザの両方から,ダイアログエージェントが後見で適応的に学習できるアルゴリズムLHUAを開発した。
実験結果から、LHUAは成功率と政策品質において、文献の競争基準よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-05-07T07:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。