論文の概要: NaRLE: Natural Language Models using Reinforcement Learning with Emotion
Feedback
- arxiv url: http://arxiv.org/abs/2110.02148v1
- Date: Tue, 5 Oct 2021 16:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 17:30:52.455988
- Title: NaRLE: Natural Language Models using Reinforcement Learning with Emotion
Feedback
- Title(参考訳): NaRLE:感情フィードバックによる強化学習を用いた自然言語モデル
- Authors: Ruijie Zhou, Soham Deshmukh, Jeremiah Greer, Charles Lee
- Abstract要約: NARLEは、対話システムの自然言語理解を改善するためのフレームワークである。
2つの意図的分類問題に対して、事前学習された教師付き学習モデルの微調整に強化学習を用いることで、最大43%の性能を向上させることを実証的に示す。
- 参考スコア(独自算出の注目度): 0.37277730514654556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current research in dialogue systems is focused on conversational assistants
working on short conversations in either task-oriented or open domain settings.
In this paper, we focus on improving task-based conversational assistants
online, primarily those working on document-type conversations (e.g., emails)
whose contents may or may not be completely related to the assistant's task. We
propose "NARLE" a deep reinforcement learning (RL) framework for improving the
natural language understanding (NLU) component of dialogue systems online
without the need to collect human labels for customer data. The proposed
solution associates user emotion with the assistant's action and uses that to
improve NLU models using policy gradients. For two intent classification
problems, we empirically show that using reinforcement learning to fine tune
the pre-trained supervised learning models improves performance up to 43%.
Furthermore, we demonstrate the robustness of the method to partial and noisy
implicit feedback.
- Abstract(参考訳): 現在の対話システムの研究は、タスク指向またはオープンドメインの設定で短い会話に取り組む会話アシスタントに焦点を当てている。
本稿では,タスクベースの会話アシスタントをオンラインで改善することに焦点を当て,その内容がそのタスクと完全に関係しているか否かを問わない文書型会話(eメールなど)を主に行っている。
我々は,対話システムの自然言語理解(NLU)コンポーネントを,顧客データのラベルを収集することなく改善するための,深層強化学習(RL)フレームワーク「NARLE」を提案する。
提案手法は,ユーザの感情とアシスタントの行動とを関連付け,ポリシー勾配を用いてNLUモデルを改善する。
2つの意図分類問題に対して,強化学習を用いて事前学習した教師付き学習モデルの微調整を行うことにより,最大43%の性能が向上することを示す。
さらに,提案手法の頑健さを暗黙のフィードバックの部分的かつ雑音的に示す。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Frugal Prompting for Dialog Models [17.048111072193933]
本研究では,大規模言語モデル(LLM)を用いた対話システム構築のための異なるアプローチについて検討する。
即時チューニングの一環として、インストラクション、例題、現在のクエリ、追加のコンテキストを提供する様々な方法を試行する。
この研究は、最適な使用情報密度を持つダイアログ履歴の表現も分析する。
論文 参考訳(メタデータ) (2023-05-24T09:06:49Z) - Adapting Task-Oriented Dialogue Models for Email Conversations [4.45709593827781]
本稿では,対話モデルの最新開発を長文会話に適用できる効果的な伝達学習フレームワーク(EMToD)を提案する。
提案するEMToDフレームワークは,事前学習した言語モデルに対する意図検出性能を45%向上し,タスク指向の電子メール会話において,事前学習した対話モデルに対する意図検出性能を30%向上することを示す。
論文 参考訳(メタデータ) (2022-08-19T16:41:34Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。