論文の概要: Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents
- arxiv url: http://arxiv.org/abs/2311.00262v1
- Date: Wed, 1 Nov 2023 03:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:11:47.305572
- Title: Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents
- Title(参考訳): 大規模言語モデルを用いた対話エージェントのプラグアンドプレイポリシープランナ
- Authors: Yang Deng, Wenxuan Zhang, Wai Lam, See-Kiong Ng, Tat-Seng Chua
- Abstract要約: そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
- 参考スコア(独自算出の注目度): 121.46051697742608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proactive dialogues serve as a practical yet challenging dialogue problem in
the era of large language models (LLMs), where the dialogue policy planning is
the key to improving the proactivity of LLMs. Most existing studies enable the
dialogue policy planning of LLMs using various prompting schemes or iteratively
enhance this capability in handling the given case with verbal AI feedback.
However, these approaches are either bounded by the policy planning capability
of the frozen LLMs or hard to be transferred to new cases. In this work, we
introduce a new dialogue policy planning paradigm to strategize LLMs for
proactive dialogue problems with a tunable language model plug-in as a
plug-and-play dialogue policy planner, named PPDPP. Specifically, we develop a
novel training framework to facilitate supervised fine-tuning over available
human-annotated data as well as reinforcement learning from goal-oriented AI
feedback with dynamic interaction data collected by the LLM-based self-play
simulation. In this manner, the LLM-powered dialogue agent can not only be
generalized to different cases after the training, but also be applicable to
different applications by just substituting the learned plug-in. In addition,
we propose to evaluate the policy planning capability of dialogue systems under
the interactive setting. Experimental results demonstrate that PPDPP
consistently and substantially outperforms existing approaches on three
different proactive dialogue applications, including negotiation, emotional
support, and tutoring dialogues.
- Abstract(参考訳): プロアクティブ対話は、大規模言語モデル(llm)の時代において実用的で挑戦的な対話問題となり、対話政策計画がllmのプロアクティブ性を改善する鍵となる。
既存の研究の多くは、様々なプロンプトスキームを用いたLLMの対話ポリシープランニングを可能とし、言語AIのフィードバックで与えられたケースを扱う能力を反復的に強化する。
しかし、これらのアプローチは凍結したLCMの政策計画能力に縛られているか、あるいは新しいケースに移行することが難しいかのどちらかである。
そこで本研究では,ppdppと呼ばれる対話政策プランナーとして,可変言語モデルプラグインを用いて,積極的な対話問題に対するllmをストラテジライズするための新しい対話政策計画パラダイムを提案する。
具体的には、LLMベースのセルフプレイシミュレーションによって収集された動的相互作用データを用いた目標指向のAIフィードバックからの強化学習とともに、利用可能な人間アノテーションデータに対する教師あり微調整を容易にする新しいトレーニングフレームワークを開発する。
このように、LLMを利用した対話エージェントは、訓練後に異なるケースに一般化できるだけでなく、学習したプラグインを置換するだけで異なるアプリケーションに適用できる。
さらに,対話型環境下での対話システムの政策計画能力を評価することを提案する。
実験の結果,PDPPは交渉,感情支援,教師対話など,3つの異なる対話アプリケーションにおいて,既存のアプローチよりも一貫して,実質的に優れていた。
関連論文リスト
- Planning with Large Language Models for Conversational Agents [51.12859325330882]
自律会話エージェント(CA)の制御性と能動性は重要な性質である
大規模言語モデル(LLM)を利用した計画型対話エージェントのための新しいフレームワークを提案する。
実験の結果,PCA-Dで微調整されたLCMは性能を著しく向上し,未確認領域に一般化できることがわかった。
論文 参考訳(メタデータ) (2024-07-04T12:23:02Z) - Unsupervised Extraction of Dialogue Policies from Conversations [3.102576158218633]
本稿では,データセットから対話ポリシーを抽出する上で,Large Language Modelがいかに有効かを示す。
そこで我々は,制御可能かつ解釈可能なグラフベースの手法を用いて対話ポリシーを生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T14:57:25Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Dialogue-oriented Pre-training [70.03028879331339]
一般的なプレーンテキスト上での会話特徴をシミュレートする3つの手法を提案する。
Dialog-PrLMは3つの公開マルチターン対話データセットに基づいて微調整される。
論文 参考訳(メタデータ) (2021-06-01T12:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。