論文の概要: Planning with Large Language Models for Conversational Agents
- arxiv url: http://arxiv.org/abs/2407.03884v1
- Date: Thu, 4 Jul 2024 12:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:12:58.423687
- Title: Planning with Large Language Models for Conversational Agents
- Title(参考訳): 対話エージェントのための大規模言語モデルによる計画
- Authors: Zhigen Li, Jianxiang Peng, Yanmeng Wang, Tianhao Shen, Minghui Zhang, Linxi Su, Shang Wu, Yihang Wu, Yuqian Wang, Ye Wang, Wei Hu, Jianfeng Li, Shaojun Wang, Jing Xiao, Deyi Xiong,
- Abstract要約: 自律会話エージェント(CA)の制御性と能動性は重要な性質である
大規模言語モデル(LLM)を利用した計画型対話エージェントのための新しいフレームワークを提案する。
実験の結果,PCA-Dで微調整されたLCMは性能を著しく向上し,未確認領域に一般化できることがわかった。
- 参考スコア(独自算出の注目度): 51.12859325330882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllability and proactivity are crucial properties of autonomous conversational agents (CAs). Controllability requires the CAs to follow the standard operating procedures (SOPs), such as verifying identity before activating credit cards. Proactivity requires the CAs to guide the conversation towards the goal during user uncooperation, such as persuasive dialogue. Existing research cannot be unified with controllability, proactivity, and low manual annotation. To bridge this gap, we propose a new framework for planning-based conversational agents (PCA) powered by large language models (LLMs), which only requires humans to define tasks and goals for the LLMs. Before conversation, LLM plans the core and necessary SOP for dialogue offline. During the conversation, LLM plans the best action path online referring to the SOP, and generates responses to achieve process controllability. Subsequently, we propose a semi-automatic dialogue data creation framework and curate a high-quality dialogue dataset (PCA-D). Meanwhile, we develop multiple variants and evaluation metrics for PCA, e.g., planning with Monte Carlo Tree Search (PCA-M), which searches for the optimal dialogue action while satisfying SOP constraints and achieving the proactive of the dialogue. Experiment results show that LLMs finetuned on PCA-D can significantly improve the performance and generalize to unseen domains. PCA-M outperforms other CoT and ToT baselines in terms of conversation controllability, proactivity, task success rate, and overall logical coherence, and is applicable in industry dialogue scenarios. The dataset and codes are available at XXXX.
- Abstract(参考訳): 制御性と能動性は自律的会話エージェント(CA)の重要な性質である。
制御性には、CAはクレジットカードをアクティベートする前にIDを検証するなど、標準的な操作手順(SOP)に従う必要がある。
プロアクティビティは、説得的対話のようなユーザの非協力の間、CAが会話を目標に向かって導く必要がある。
既存の研究は、制御性、積極性、低マニュアルアノテーションと統合することはできない。
このギャップを埋めるために,我々は大規模言語モデル(LLM)を利用した計画型対話エージェント(PCA)の新たなフレームワークを提案する。
会話の前にLLMは、オフラインで対話するための中核的で必要なSOPを計画している。
会話中、LLMはSOPを参照して、オンラインで最高のアクションパスを計画し、プロセスの制御性を達成するために応答を生成する。
次に、半自動対話データ作成フレームワークを提案し、高品質な対話データセット(PCA-D)をキュレートする。
一方, モンテカルロ木探索 (PCA-M) を用いて, SOP制約を満たしながら最適な対話動作を探索し, 対話の積極性を達成するための多変量および評価指標を開発した。
実験の結果,PCA-Dで微調整されたLCMは性能を著しく向上し,未確認領域に一般化できることがわかった。
PCA-Mは会話制御性、確率性、タスク成功率、全体的な論理コヒーレンスという点で他のCoTおよびToTベースラインよりも優れており、産業対話のシナリオに適用できる。
データセットとコードはXXXXで入手できる。
関連論文リスト
- SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search [5.079888940901933]
既存の方法は、強欲な行動選択やサンプリング戦略を備えた強化学習エージェントを訓練する。
我々は,モンテカルロ木探索 (MCTS) ベースの CRS フレームワーク SAPIENT を提案する。
SAPIENTは会話エージェント(Sエージェント)と会話プランナー(Sプランナー)で構成される
論文 参考訳(メタデータ) (2024-10-12T16:21:33Z) - Unsupervised Extraction of Dialogue Policies from Conversations [3.102576158218633]
本稿では,データセットから対話ポリシーを抽出する上で,Large Language Modelがいかに有効かを示す。
そこで我々は,制御可能かつ解釈可能なグラフベースの手法を用いて対話ポリシーを生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T14:57:25Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - TOD-Flow: Modeling the Structure of Task-Oriented Dialogues [77.15457469745364]
ダイアログを付加した対話データからTOD-Flowグラフを推定する手法を提案する。
推定されたTOD-Flowグラフは、任意の対話モデルと容易に統合することができ、予測性能、透明性、制御性を改善することができる。
論文 参考訳(メタデータ) (2023-12-07T20:06:23Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Leveraging Explicit Procedural Instructions for Data-Efficient Action
Prediction [5.448684866061922]
タスク指向の対話は、しばしばエージェントがユーザ要求を満たすために複雑で多段階の手順を実行する必要がある。
大規模言語モデルは、制約のある環境でこれらの対話を自動化することに成功したが、その広範な展開は、トレーニングに必要なタスク固有の大量のデータによって制限されている。
本稿では,エージェントガイドラインから導出した明示的な指示を利用して対話システムを構築するための,データ効率のよいソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:42:08Z) - Controllable Mixed-Initiative Dialogue Generation through Prompting [50.03458333265885]
混合開始対話タスクには、情報の繰り返し交換と会話制御が含まれる。
エージェントは、ポリシープランナーが定める特定の対話意図や戦略に従う応答を生成することにより、コントロールを得る。
標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。
代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換えるように促します。
論文 参考訳(メタデータ) (2023-05-06T23:11:25Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System [26.837972034630003]
PPTODはタスク指向対話のための統一的なプラグアンドプレイモデルである。
エンド・ツー・エンドの対話モデル、対話状態追跡、意図分類を含む3つのベンチマークTODタスクにおいて、我々のモデルを広範囲にテストする。
論文 参考訳(メタデータ) (2021-09-29T22:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。