論文の概要: Causal-aware Safe Policy Improvement for Task-oriented dialogue
- arxiv url: http://arxiv.org/abs/2103.06370v1
- Date: Wed, 10 Mar 2021 22:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 15:02:02.468698
- Title: Causal-aware Safe Policy Improvement for Task-oriented dialogue
- Title(参考訳): タスク指向対話における因果認識型安全ポリシー改善
- Authors: Govardana Sachithanandam Ramachandran, Kazuma Hashimoto, Caiming Xiong
- Abstract要約: 我々はタスク指向対話政策学習のためのバッチrlフレームワークを提案する:causal safe policy improvement (caspi)
Multiwoz2.0データセットの対話対テキスト生成およびエンドツーエンド対話タスクにおけるこのフレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 45.88777832381149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of reinforcement learning's (RL) in solving complex tasks
is most often attributed to its capacity to explore and exploit an environment
where it has been trained. Sample efficiency is usually not an issue since
cheap simulators are available to sample data on-policy. On the other hand,
task oriented dialogues are usually learnt from offline data collected using
human demonstrations. Collecting diverse demonstrations and annotating them is
expensive. Unfortunately, use of RL methods trained on off-policy data are
prone to issues of bias and generalization, which are further exacerbated by
stochasticity in human response and non-markovian belief state of a dialogue
management system. To this end, we propose a batch RL framework for task
oriented dialogue policy learning: causal aware safe policy improvement
(CASPI). This method gives guarantees on dialogue policy's performance and also
learns to shape rewards according to intentions behind human responses, rather
than just mimicking demonstration data; this couple with batch-RL helps overall
with sample efficiency of the framework. We demonstrate the effectiveness of
this framework on a dialogue-context-to-text Generation and end-to-end dialogue
task of the Multiwoz2.0 dataset. The proposed method outperforms the current
state of the art on these metrics, in both case. In the end-to-end case, our
method trained only on 10\% of the data was able to out perform current state
in three out of four evaluation metrics.
- Abstract(参考訳): 複雑なタスクを解決するための強化学習(rl)の最近の成功は、訓練された環境を探索し活用する能力に起因していることが多い。
安価なシミュレータは、政治上のサンプルデータに利用できるため、サンプル効率は通常問題ではない。
一方、タスク指向対話は通常、人間のデモを用いて収集されたオフラインデータから学習される。
多様なデモの収集と注釈は高価である。
残念なことに、非政治的データで訓練されたRL手法の使用は、人間の反応の確率性や対話管理システムの非マルコフ的信念状態によってさらに悪化するバイアスや一般化の問題を引き起こす。
そこで本研究では,タスク指向対話政策学習のためのバッチrlフレームワーク,causal aware safe policy improvement (caspi)を提案する。
本手法は,対話政策のパフォーマンスを保証し,実演データを模倣するのではなく,人間の反応の背後にある意図に従って報酬を形作ることを学習する。
Multiwoz2.0データセットの対話対テキスト生成およびエンドツーエンド対話タスクにおけるこのフレームワークの有効性を実証する。
提案手法は,いずれの場合においても,これらの測定値の現況を上回っている。
エンド・ツー・エンドの場合、我々の手法はデータの10倍のトレーニングしか行わず、4つの評価指標のうち3つで現在の状態を達成できた。
関連論文リスト
- Why Guided Dialog Policy Learning performs well? Understanding the role
of adversarial learning and its alternative [0.44267358790081573]
近年では、ダイアログポリシー学習(DPL)のための有望な選択肢として強化学習が登場している。
収集データから報酬を推定する方法の1つは、相手学習(AL)を用いて報酬推定器と対話ポリシーを同時に訓練することである。
本稿では,DPLにおけるALの役割を,ダイアログポリシと報酬推定器の目的関数の詳細な分析を通じて明らかにする。
本稿では,ALを報酬推定から排除し,その利点を保ちながらDPLを除去する手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T12:29:29Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - What Does The User Want? Information Gain for Hierarchical Dialogue
Policy Optimisation [3.1433893853959605]
強化学習(RL)による最適化は、非効率性と不安定性のサンプリングに影響を受けやすい。
本稿では,この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。
FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-15T07:21:26Z) - Data-Efficient Methods for Dialogue Systems [4.061135251278187]
会話型ユーザインタフェース(CUI)は、SiriやAlexaといったコンシューマにフォーカスした製品において、日常的に広く普及している。
ディープラーニングは、対話システムにおける最近のブレークスルーの根底にあるが、専門家によって注釈付けされることが多い、非常に大量のトレーニングデータを必要とする。
本稿では,最小限のデータから頑健な対話システムを訓練するための一連の手法を紹介する。
論文 参考訳(メタデータ) (2020-12-05T02:51:09Z) - Learning Dialog Policies from Weak Demonstrations [32.149932955715705]
Demonstrations (DQfD) からの深層Q-learningを構築し,ダイアログデータを利用してエージェントを誘導し,ユーザの要求に応答する。
ラベル付きデータ、ラベル付きデータ、さらにはラベルなしデータを使って、必要なデータに関する仮定を徐々に減らします。
挑戦的なマルチドメインダイアログシステムフレームワークの実験は、我々のアプローチを検証し、ドメイン外のデータでトレーニングしても高い成功率を得る。
論文 参考訳(メタデータ) (2020-04-23T10:22:16Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。