論文の概要: Refine and Imitate: Reducing Repetition and Inconsistency in Persuasion
Dialogues via Reinforcement Learning and Human Demonstration
- arxiv url: http://arxiv.org/abs/2012.15375v1
- Date: Thu, 31 Dec 2020 00:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:28:02.579009
- Title: Refine and Imitate: Reducing Repetition and Inconsistency in Persuasion
Dialogues via Reinforcement Learning and Human Demonstration
- Title(参考訳): Refine and Imitate: Reinforcement Learning と Human Demonstration による説得対話における繰り返しと矛盾の軽減
- Authors: Weiyan Shi, Yu Li, Saurav Sahay, Zhou Yu
- Abstract要約: ユーザシミュレータを使わずにmleベースの言語モデルの洗練に強化学習を適用することを提案する。
我々は報酬を通じて繰り返し、矛盾、タスク関連に関する文レベル情報を蒸留する。
実験により,我々のモデルは,自動測定結果と人的評価結果の両方において,従来の最先端対話モデルよりも優れていたことがわかった。
- 参考スコア(独自算出の注目度): 45.14559188965439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of large-scale language models on various
downstream NLP tasks, the repetition and inconsistency problems still persist
in dialogue response generation. Previous approaches have attempted to avoid
repetition by penalizing the language model's undesirable behaviors in the loss
function. However, these methods focus on token-level information and can lead
to incoherent responses and uninterpretable behaviors. To alleviate these
issues, we propose to apply reinforcement learning to refine an MLE-based
language model without user simulators, and distill sentence-level information
about repetition, inconsistency and task relevance through rewards. In
addition, to better accomplish the dialogue task, the model learns from human
demonstration to imitate intellectual activities such as persuasion, and
selects the most persuasive responses. Experiments show that our model
outperforms previous state-of-the-art dialogue models on both automatic metrics
and human evaluation results on a donation persuasion task, and generates more
diverse, consistent and persuasive conversations according to the user
feedback.
- Abstract(参考訳): ダウンストリームnlpタスクでの大規模言語モデルの成功にもかかわらず、対話応答生成では繰り返しや不整合の問題が続いている。
以前のアプローチでは、言語モデルの損失関数における望ましくない振る舞いを罰することで繰り返しを避けることを試みた。
しかし、これらの手法はトークンレベルの情報に焦点を当てており、一貫性のない応答や解釈不能な行動につながる可能性がある。
これらの問題を緩和するために,ユーザシミュレータを使わずにmleベースの言語モデルの洗練に強化学習を適用し,報酬による反復,不整合,タスクの関連性に関する文レベルの情報を抽出することを提案する。
さらに、対話課題をより良く達成するために、モデルは人間の実演から学習し、説得などの知的活動を模倣し、最も説得力のある応答を選択する。
実験の結果, 提案手法は, 自動計測結果と人的評価結果の両方において, 従来の対話モデルより優れており, ユーザのフィードバックに応じて, より多様で一貫した, 説得的な会話を生成することがわかった。
関連論文リスト
- Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Controllable Mixed-Initiative Dialogue Generation through Prompting [50.03458333265885]
混合開始対話タスクには、情報の繰り返し交換と会話制御が含まれる。
エージェントは、ポリシープランナーが定める特定の対話意図や戦略に従う応答を生成することにより、コントロールを得る。
標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。
代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換えるように促します。
論文 参考訳(メタデータ) (2023-05-06T23:11:25Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Improving a sequence-to-sequence nlp model using a reinforcement
learning policy algorithm [0.0]
対話生成の現在のニューラルネットワークモデルは、おしゃべりエージェントの回答を生成する上で非常に有望である。
しかし、彼らは発話を1度ずつ予測し、将来の結果に対する彼らの影響を無視している。
本研究は,対話の長期的成功に基づくニューラルな会話モデル構築に向けた予備的なステップを記念するものである。
論文 参考訳(メタデータ) (2022-12-28T22:46:57Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z) - Learning from Perturbations: Diverse and Informative Dialogue Generation
with Inverse Adversarial Training [10.17868476063421]
Inverse Adversarial Training (IAT) アルゴリズムを提案する。
IATはモデルに対話履歴の摂動に敏感であり、従って摂動から学ぶことを奨励する。
提案手法は対話履歴をモデル化し,より多様で一貫した応答を生成する。
論文 参考訳(メタデータ) (2021-05-31T17:28:37Z) - DialogBERT: Discourse-Aware Response Generation via Learning to Recover
and Rank Utterances [18.199473005335093]
本稿では,従来の PLM に基づく対話モデルを強化した対話応答生成モデルである DialogBERT を提案する。
発話間の談話レベルのコヒーレンスを効果的に把握するために,マスク付き発話回帰を含む2つの訓練目標を提案する。
3つのマルチターン会話データセットの実験により、我々のアプローチがベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-03T09:06:23Z) - Group-wise Contrastive Learning for Neural Dialogue Generation [29.749195182401344]
対話生成に比較学習を導入し、モデルが肯定的発話と否定的発話の差を明示的に知覚する。
ヒトの会話におけるマルチマッピング関係を管理するために,グループワイド二重サンプリングによる対照対話学習を強化した。
論文 参考訳(メタデータ) (2020-09-16T08:28:30Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。