論文の概要: GoChat: Goal-oriented Chatbots with Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2005.11729v2
- Date: Tue, 26 May 2020 04:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 13:14:59.307535
- Title: GoChat: Goal-oriented Chatbots with Hierarchical Reinforcement Learning
- Title(参考訳): GoChat: 階層的な強化学習を備えた目標指向チャットボット
- Authors: Jianfeng Liu, Feiyang Pan, Ling Luo
- Abstract要約: GoChatは、オフラインのマルチターン対話データセットからの長期的なリターンを最大化する、エンドツーエンドのトレーニングのためのフレームワークである。
この枠組みは階層的強化学習(HRL)を利用しており、ハイレベルな政策が最終目標に向かって会話を導く。
ファイナンシャルにおけるアンチフルートのための実世界の対話データセットの実験において、我々の手法は、応答生成の品質とゴール達成の成功率の両方において、従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 10.514163160735926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A chatbot that converses like a human should be goal-oriented (i.e., be
purposeful in conversation), which is beyond language generation. However,
existing dialogue systems often heavily rely on cumbersome hand-crafted rules
or costly labelled datasets to reach the goals. In this paper, we propose
Goal-oriented Chatbots (GoChat), a framework for end-to-end training chatbots
to maximize the longterm return from offline multi-turn dialogue datasets. Our
framework utilizes hierarchical reinforcement learning (HRL), where the
high-level policy guides the conversation towards the final goal by determining
some sub-goals, and the low-level policy fulfills the sub-goals by generating
the corresponding utterance for response. In our experiments on a real-world
dialogue dataset for anti-fraud in financial, our approach outperforms previous
methods on both the quality of response generation as well as the success rate
of accomplishing the goal.
- Abstract(参考訳): 人間のように会話するチャットボットは、言語生成を超越したゴール指向(会話の目的)であるべきである。
しかし、既存の対話システムは、目標を達成するために、面倒な手作りのルールや高価なラベル付きデータセットに大きく依存することが多い。
本稿では,ゴール指向チャットボット(gochat)を提案する。チャットボットをエンドツーエンドでトレーニングし,オフラインのマルチターン対話データセットからの長期復帰を最大化するフレームワークである。
このフレームワークでは階層的強化学習(hrl)を用いて,高レベルポリシが下位ゴールを決定することによって最終目標に向かって会話を誘導し,低レベルポリシが対応する応答発話を生成して下位ゴールを満足する。
金融学におけるアンチフルートのための実世界の対話データセットに関する実験では、応答生成の質と目標達成の成功率の両方において、従来の手法よりも優れています。
関連論文リスト
- Goal Inference from Open-Ended Dialog [6.21910767424247]
本稿では,多様なユーザ目標を学習し,達成するためのエンボディエージェントのオンライン手法を提案する。
大規模言語モデルとの対話から自然言語目標表現を抽出する。
その結果,制約のない対話に基づいて,複雑な目標に対する不確実性を表現できることがわかった。
論文 参考訳(メタデータ) (2024-10-17T18:30:52Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Dialogue Planning via Brownian Bridge Stochastic Process for
Goal-directed Proactive Dialogue [9.99763097964222]
ゴール指向対話システムは,マルチターン会話を通じて事前決定された目標に積極的に到達することを目的としている。
このタスクを達成するための鍵は、ターゲットに向かってスムーズかつ一貫性のある会話を誘導する対話パスを計画することにある。
本稿では,対話経路の時間的ダイナミクスをモデル化するプロセスを用いた対話計画手法を提案する。
論文 参考訳(メタデータ) (2023-05-09T09:28:23Z) - Improving a sequence-to-sequence nlp model using a reinforcement
learning policy algorithm [0.0]
対話生成の現在のニューラルネットワークモデルは、おしゃべりエージェントの回答を生成する上で非常に有望である。
しかし、彼らは発話を1度ずつ予測し、将来の結果に対する彼らの影響を無視している。
本研究は,対話の長期的成功に基づくニューラルな会話モデル構築に向けた予備的なステップを記念するものである。
論文 参考訳(メタデータ) (2022-12-28T22:46:57Z) - Target-Guided Dialogue Response Generation Using Commonsense and Data
Augmentation [32.764356638437214]
ターゲット誘導応答生成のための新しい手法を提案する。
また,既存の対話データセットをターゲット誘導生成のために再利用する手法を提案する。
我々の作業は、一般的に、対話システムの設計者が、システムが生み出す会話をより制御できるようにします。
論文 参考訳(メタデータ) (2022-05-19T04:01:40Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - I love your chain mail! Making knights smile in a fantasy game world:
Open-domain goal-oriented dialogue agents [69.68400056148336]
我々は、模倣学習したチトチャットモデルに対して強化学習を施した目標指向モデルを訓練する。
両モデルが逆モデルベースラインより優れており,目標を達成するために対話相手と自然に会話できることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:22:36Z) - Dynamic Knowledge Routing Network For Target-Guided Open-Domain
Conversation [79.7781436501706]
本稿では,粗いキーワードを導入することで,システム応答の意図した内容を制御する構造的アプローチを提案する。
また,対話を円滑な目標達成に導くために,より高い成功率で対話を誘導する新たな二重談話レベルの目標誘導戦略を提案する。
論文 参考訳(メタデータ) (2020-02-04T09:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。