論文の概要: Refine and Imitate: Reducing Repetition and Inconsistency in Persuasion
Dialogues via Reinforcement Learning and Human Demonstration
- arxiv url: http://arxiv.org/abs/2012.15375v1
- Date: Thu, 31 Dec 2020 00:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:28:02.579009
- Title: Refine and Imitate: Reducing Repetition and Inconsistency in Persuasion
Dialogues via Reinforcement Learning and Human Demonstration
- Title(参考訳): Refine and Imitate: Reinforcement Learning と Human Demonstration による説得対話における繰り返しと矛盾の軽減
- Authors: Weiyan Shi, Yu Li, Saurav Sahay, Zhou Yu
- Abstract要約: ユーザシミュレータを使わずにmleベースの言語モデルの洗練に強化学習を適用することを提案する。
我々は報酬を通じて繰り返し、矛盾、タスク関連に関する文レベル情報を蒸留する。
実験により,我々のモデルは,自動測定結果と人的評価結果の両方において,従来の最先端対話モデルよりも優れていたことがわかった。
- 参考スコア(独自算出の注目度): 45.14559188965439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of large-scale language models on various
downstream NLP tasks, the repetition and inconsistency problems still persist
in dialogue response generation. Previous approaches have attempted to avoid
repetition by penalizing the language model's undesirable behaviors in the loss
function. However, these methods focus on token-level information and can lead
to incoherent responses and uninterpretable behaviors. To alleviate these
issues, we propose to apply reinforcement learning to refine an MLE-based
language model without user simulators, and distill sentence-level information
about repetition, inconsistency and task relevance through rewards. In
addition, to better accomplish the dialogue task, the model learns from human
demonstration to imitate intellectual activities such as persuasion, and
selects the most persuasive responses. Experiments show that our model
outperforms previous state-of-the-art dialogue models on both automatic metrics
and human evaluation results on a donation persuasion task, and generates more
diverse, consistent and persuasive conversations according to the user
feedback.
- Abstract(参考訳): ダウンストリームnlpタスクでの大規模言語モデルの成功にもかかわらず、対話応答生成では繰り返しや不整合の問題が続いている。
以前のアプローチでは、言語モデルの損失関数における望ましくない振る舞いを罰することで繰り返しを避けることを試みた。
しかし、これらの手法はトークンレベルの情報に焦点を当てており、一貫性のない応答や解釈不能な行動につながる可能性がある。
これらの問題を緩和するために,ユーザシミュレータを使わずにmleベースの言語モデルの洗練に強化学習を適用し,報酬による反復,不整合,タスクの関連性に関する文レベルの情報を抽出することを提案する。
さらに、対話課題をより良く達成するために、モデルは人間の実演から学習し、説得などの知的活動を模倣し、最も説得力のある応答を選択する。
実験の結果, 提案手法は, 自動計測結果と人的評価結果の両方において, 従来の対話モデルより優れており, ユーザのフィードバックに応じて, より多様で一貫した, 説得的な会話を生成することがわかった。
関連論文リスト
- Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z) - Adaptive Bridge between Training and Inference for Dialogue [36.64781557775641]
そこで本研究では,新たな適応型スイッチング機構を提案する。
提案手法は,メートル法に基づく評価と人的評価の観点から,大幅な改善を実現している。
論文 参考訳(メタデータ) (2021-10-22T02:43:27Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - Learning from Perturbations: Diverse and Informative Dialogue Generation
with Inverse Adversarial Training [10.17868476063421]
Inverse Adversarial Training (IAT) アルゴリズムを提案する。
IATはモデルに対話履歴の摂動に敏感であり、従って摂動から学ぶことを奨励する。
提案手法は対話履歴をモデル化し,より多様で一貫した応答を生成する。
論文 参考訳(メタデータ) (2021-05-31T17:28:37Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z) - DialogBERT: Discourse-Aware Response Generation via Learning to Recover
and Rank Utterances [18.199473005335093]
本稿では,従来の PLM に基づく対話モデルを強化した対話応答生成モデルである DialogBERT を提案する。
発話間の談話レベルのコヒーレンスを効果的に把握するために,マスク付き発話回帰を含む2つの訓練目標を提案する。
3つのマルチターン会話データセットの実験により、我々のアプローチがベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-03T09:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。