論文の概要: Prompt-Based Monte-Carlo Tree Search for Goal-Oriented Dialogue Policy
Planning
- arxiv url: http://arxiv.org/abs/2305.13660v2
- Date: Thu, 19 Oct 2023 22:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 07:39:07.085046
- Title: Prompt-Based Monte-Carlo Tree Search for Goal-Oriented Dialogue Policy
Planning
- Title(参考訳): 目標指向対話政策計画のためのプロンプト型モンテカルロ木探索
- Authors: Xiao Yu, Maximillian Chen, Zhou Yu
- Abstract要約: GDP-Zero は Open-Loop MCTS を用いて,モデルトレーニングなしで目標指向の対話ポリシ計画を実行するアプローチである。
我々は、目標指向タスクPersuasionForGood上でGDP-Zeroを評価し、そのレスポンスがChatGPTよりも59.32%の確率で望ましいことを発見した。
- 参考スコア(独自算出の注目度): 22.753613264491918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning for goal-oriented dialogue often requires simulating future dialogue
interactions and estimating task progress. Many approaches thus consider
training neural networks to perform look-ahead search algorithms such as A*
search and Monte Carlo Tree Search (MCTS). However, this training often
requires abundant annotated data, which creates challenges when faced with
noisy annotations or low-resource settings. We introduce GDP-Zero, an approach
using Open-Loop MCTS to perform goal-oriented dialogue policy planning without
any model training. GDP-Zero prompts a large language model to act as a policy
prior, value function, user simulator, and system model during the tree search.
We evaluate GDP-Zero on the goal-oriented task PersuasionForGood, and find that
its responses are preferred over ChatGPT up to 59.32% of the time, and are
rated more persuasive than ChatGPT during interactive evaluations.
- Abstract(参考訳): 目標指向対話の計画には、しばしば将来の対話のシミュレーションとタスクの進捗推定が必要である。
したがって、A*検索やMCTS(Monte Carlo Tree Search)のようなルックアヘッド検索アルゴリズムを実行するためのニューラルネットワークのトレーニングを検討する。
しかし、このトレーニングには豊富な注釈データが必要であり、ノイズの多いアノテーションや低リソース設定に直面すると課題が発生する。
GDP-Zeroは、オープンループMCTSを用いて、モデルトレーニングなしで目標指向の対話ポリシー計画を実行するアプローチである。
GDP-Zeroは、ツリー検索中にポリシープライド、値関数、ユーザシミュレータ、システムモデルとして機能するよう、大きな言語モデルに促す。
目標指向タスクであるPersuasionForGoodでGDP-Zeroを評価し、その応答がChatGPTよりも59.32%好まれ、対話的評価においてChatGPTよりも説得力が高いと評価した。
関連論文リスト
- Planning with Large Language Models for Conversational Agents [51.12859325330882]
自律会話エージェント(CA)の制御性と能動性は重要な性質である
大規模言語モデル(LLM)を利用した計画型対話エージェントのための新しいフレームワークを提案する。
実験の結果,PCA-Dで微調整されたLCMは性能を著しく向上し,未確認領域に一般化できることがわかった。
論文 参考訳(メタデータ) (2024-07-04T12:23:02Z) - Response Enhanced Semi-supervised Dialogue Query Generation [40.17161986495854]
ラベルのない会話でモデル性能を向上させるための半教師付き学習フレームワーク、SemiDQGを提案する。
まず、類似性に基づくクエリ選択手法を適用し、高品質なRA生成擬似クエリを選択する。
我々は、QPをさらに強化するためにREINFORCEアルゴリズムを採用し、RAによる報酬をきめ細かい訓練信号として利用する。
論文 参考訳(メタデータ) (2023-12-20T02:19:54Z) - A Preliminary Evaluation of ChatGPT for Zero-shot Dialogue Understanding [55.37338324658501]
ゼロショット対話理解は、ユーザーのニーズをトレーニングデータなしで追跡できるようにすることを目的としている。
本研究では,ゼロショット対話理解タスクにおけるChatGPTの理解能力について検討する。
論文 参考訳(メタデータ) (2023-04-09T15:28:36Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - KILDST: Effective Knowledge-Integrated Learning for Dialogue State
Tracking using Gazetteer and Speaker Information [3.342637296393915]
対話状態追跡(DST)は、対話システムにおける中核的な研究であり、多くの注目を集めている。
ユーザ間の対話に対処できる新たな問題を,ユーザ間の対話から情報を抽出し,推奨する対話型AIへのステップとして定義する必要がある。
イベントのスケジューリングに関するユーザ間の対話(DST-S)からの新しいタスクDSTを導入する。
DST-Sタスクは、ユーザ間の対話における対話を理解し、追跡し、誰がスケジュールを提案し、誰が提案されたスケジュールに同意したかを理解する必要があるため、はるかに難しい。
論文 参考訳(メタデータ) (2023-01-18T07:11:56Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。