論文の概要: Controllable Conversations: Planning-Based Dialogue Agent with Large Language Models
- arxiv url: http://arxiv.org/abs/2407.03884v2
- Date: Sun, 22 Dec 2024 17:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:44.671590
- Title: Controllable Conversations: Planning-Based Dialogue Agent with Large Language Models
- Title(参考訳): 制御可能な会話:大規模言語モデルを用いた計画ベース対話エージェント
- Authors: Zhigen Li, Jianxiang Peng, Yanmeng Wang, Yong Cao, Tianhao Shen, Minghui Zhang, Linxi Su, Shang Wu, Yihang Wu, Yuqian Wang, Ye Wang, Wei Hu, Jianfeng Li, Shaojun Wang, Jing Xiao, Deyi Xiong,
- Abstract要約: 計画型会話エージェント (PCA) は, LLM駆動エージェントの制御性向上を目的とした対話フレームワークである。
GPT-4oを用いた半自動ロールプレイングシステムを用いて,SOP注釈付きマルチシナリオ対話からなるデータセットを提案する。
また、SOP予測のための教師付き微調整と思考の連鎖を統合し、モンテカルロ木探索を対話中の最適な行動計画に活用する手法を提案する。
- 参考スコア(独自算出の注目度): 52.7201882529976
- License:
- Abstract: Conversational agents powered by Large Language Models (LLMs) show superior performance in various tasks. Despite the better user understanding and human-like responses, their lack of controllability remains a key challenge, often leading to unfocused conversations or task failure. To address this challenge, we propose Planning-based Conversational Agents (PCA), a novel dialogue framework aimed at enhancing the controllability of LLM-driven agents. Specifically, our approach introduces Standard Operating Procedure (SOP) to regulate dialogue flow. To enable PCA to learn SOP, we curate a dataset comprising SOP-annotated multi-scenario dialogues, generated using a semi-automated role-playing system with GPT-4o and validated through strict manual quality control. Additionally, we propose a novel method that integrates Chain of Thought reasoning with supervised fine-tuning for SOP prediction and utilizes Monte Carlo Tree Search for optimal action planning during dialogues. Experimental results demonstrate the effectiveness of our method, such as achieving a 27.95% improvement in action accuracy compared to baseline models based on GPT-3.5 and also showing notable gains for open-source models. Dataset and codes are publicly available.
- Abstract(参考訳): LLM(Large Language Models)を用いた会話エージェントは,様々なタスクにおいて優れた性能を示す。
より良いユーザ理解と人間的な応答にもかかわらず、コントロール容易性の欠如は重要な課題であり、多くの場合、焦点を絞らない会話やタスクの失敗につながります。
この課題に対処するために,LLM駆動エージェントの制御性向上を目的とした新しい対話フレームワークであるプランニングベース会話エージェント(PCA)を提案する。
具体的には,対話フローを制御するための標準操作手順(SOP)を提案する。
GPT-4oを用いた半自動ロールプレイングシステムを用いて生成し,厳密な手作業による品質管理によって検証した,SOP対応のマルチシナリオ対話を含むデータセットを,PCAがSOPを学習できるようにする。
さらに、SOP予測のための教師付き微調整と思考の連鎖を統合し、モンテカルロ木探索を対話中の最適な行動計画に活用する手法を提案する。
GPT-3.5に基づくベースラインモデルと比較して, 動作精度が27.95%向上し, オープンソースモデルでも顕著な向上が見られた。
データセットとコードは公開されています。
関連論文リスト
- Unsupervised Extraction of Dialogue Policies from Conversations [3.102576158218633]
本稿では,データセットから対話ポリシーを抽出する上で,Large Language Modelがいかに有効かを示す。
そこで我々は,制御可能かつ解釈可能なグラフベースの手法を用いて対話ポリシーを生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T14:57:25Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Leveraging Explicit Procedural Instructions for Data-Efficient Action
Prediction [5.448684866061922]
タスク指向の対話は、しばしばエージェントがユーザ要求を満たすために複雑で多段階の手順を実行する必要がある。
大規模言語モデルは、制約のある環境でこれらの対話を自動化することに成功したが、その広範な展開は、トレーニングに必要なタスク固有の大量のデータによって制限されている。
本稿では,エージェントガイドラインから導出した明示的な指示を利用して対話システムを構築するための,データ効率のよいソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:42:08Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - Controllable Mixed-Initiative Dialogue Generation through Prompting [50.03458333265885]
混合開始対話タスクには、情報の繰り返し交換と会話制御が含まれる。
エージェントは、ポリシープランナーが定める特定の対話意図や戦略に従う応答を生成することにより、コントロールを得る。
標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。
代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換えるように促します。
論文 参考訳(メタデータ) (2023-05-06T23:11:25Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。