論文の概要: CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2204.08426v1
- Date: Mon, 18 Apr 2022 17:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 13:25:32.126800
- Title: CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning
- Title(参考訳): CHAI:オフライン強化学習によるタスク指向対話のためのチャットボットAI
- Authors: Siddharth Verma, Justin Fu, Mengjiao Yang, Sergey Levine
- Abstract要約: オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
- 参考スコア(独自算出の注目度): 85.3987745097806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventionally, generation of natural language for dialogue agents may be
viewed as a statistical learning problem: determine the patterns in
human-provided data and generate appropriate responses with similar statistical
properties. However, dialogue can also be regarded as a goal directed process,
where speakers attempt to accomplish a specific task. Reinforcement learning
(RL) algorithms are designed specifically for solving such goal-directed
problems, but the most direct way to apply RL -- through trial-and-error
learning in human conversations, -- is costly. In this paper, we study how
offline reinforcement learning can instead be used to train dialogue agents
entirely using static datasets collected from human speakers. Our experiments
show that recently developed offline RL methods can be combined with language
models to yield realistic dialogue agents that better accomplish task goals.
- Abstract(参考訳): 従来、対話エージェントのための自然言語の生成は、人間が提供するデータのパターンを決定し、同様の統計特性で適切な応答を生成する統計的学習問題とみなすことができる。
しかし、対話は、話者が特定のタスクを達成しようとするゴール指向のプロセスと見なすこともできる。
強化学習(RL)アルゴリズムは、そのような目標指向の問題を解決するために特別に設計されているが、RLを適用する最も直接的な方法は、人間の会話における試行錯誤学習を通じて、コストがかかる。
本稿では,人間の話者から収集した静的データセットを用いて,対話エージェントの訓練にオフライン強化学習を用いる方法を検討する。
実験の結果,最近開発されたオフラインrlメソッドを言語モデルと組み合わせることで,タスク目標を達成する現実的な対話エージェントを実現することができた。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - CloneBot: Personalized Dialogue-Response Predictions [0.0]
プロジェクトのタスクは、話者id、チャット履歴、発話クエリが与えられた場合に、会話中の応答発話を予測できるモデルを作成することだった。
モデルは各話者にパーソナライズされる。
このタスクは、人間のような方法で会話する音声ボットをライブ会話で構築するのに有用なツールである。
論文 参考訳(メタデータ) (2021-03-31T01:15:37Z) - Automatic Curriculum Learning With Over-repetition Penalty for Dialogue
Policy Learning [8.744026064255337]
ACL-DQN(Automatic Curriculum Learning-based Deep Q-Network)という新しいフレームワークを提案し,自動カリキュラム学習のための対話方針を実現する。
教師モデルは、有意義な順序のカリキュラムを配置し、対話エージェントの学習進捗を監視して自動的に調整する。
実験により,ACL-DQNは,統計的に有意なマージンを有する対話タスクの有効性と安定性を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-12-28T02:44:49Z) - Human-centric Dialog Training via Offline Reinforcement Learning [16.525761580699257]
オフライン強化学習アルゴリズムの新たなクラスを開発する。
オープンドメイン設定で80ユーザからのレーティングで結果のダイアログモデルをテストする。
論文 参考訳(メタデータ) (2020-10-12T16:53:00Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。