論文の概要: ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents
- arxiv url: http://arxiv.org/abs/2407.03884v3
- Date: Sat, 22 Feb 2025 00:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:55.392616
- Title: ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents
- Title(参考訳): ChatSOP: 制御可能なLLM対話エージェントのためのSOP誘導MCTS計画フレームワーク
- Authors: Zhigen Li, Jianxiang Peng, Yanmeng Wang, Yong Cao, Tianhao Shen, Minghui Zhang, Linxi Su, Shang Wu, Yihang Wu, Yuqian Wang, Ye Wang, Wei Hu, Jianfeng Li, Shaojun Wang, Jing Xiao, Deyi Xiong,
- Abstract要約: 対話エージェントの制御性を高めるため,SOP誘導モンテカルロ木探索(MCTS)計画フレームワークを提案する。
これを実現するために、GPT-4oを用いた半自動ロールプレイシステムを用いて、SOPアノテーション付きマルチシナリオ対話からなるデータセットをキュレートする。
また、SOP予測のための教師付き微調整と思考の連鎖推論を統合する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 52.7201882529976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue agents powered by Large Language Models (LLMs) show superior performance in various tasks. Despite the better user understanding and human-like responses, their lack of controllability remains a key challenge, often leading to unfocused conversations or task failure. To address this, we introduce Standard Operating Procedure (SOP) to regulate dialogue flow. Specifically, we propose ChatSOP, a novel SOP-guided Monte Carlo Tree Search (MCTS) planning framework designed to enhance the controllability of LLM-driven dialogue agents. To enable this, we curate a dataset comprising SOP-annotated multi-scenario dialogues, generated using a semi-automated role-playing system with GPT-4o and validated through strict manual quality control. Additionally, we propose a novel method that integrates Chain of Thought reasoning with supervised fine-tuning for SOP prediction and utilizes SOP-guided Monte Carlo Tree Search for optimal action planning during dialogues. Experimental results demonstrate the effectiveness of our method, such as achieving a 27.95% improvement in action accuracy compared to baseline models based on GPT-3.5 and also showing notable gains for open-source models. Dataset and codes are publicly available.
- Abstract(参考訳): LLM(Large Language Models)を利用した対話エージェントは,様々なタスクにおいて優れた性能を示す。
より良いユーザ理解と人間的な応答にもかかわらず、コントロール容易性の欠如は重要な課題であり、多くの場合、焦点を絞らない会話やタスクの失敗につながります。
そこで本研究では,対話フローを制御するためのSOP(Standard Operating procedure)を提案する。
具体的には,新たなSOP誘導モンテカルロ木探索(MCTS)計画フレームワークであるChatSOPを提案する。
これを実現するために,GPT-4oを用いた半自動ロールプレイングシステムを用いて生成し,厳密な手動品質制御により検証した,SOP注釈付きマルチシナリオ対話からなるデータセットをキュレートする。
さらに、SOP予測のための教師付き微調整と思考の連鎖を統合し、SOP誘導モンテカルロ木探索を用いて対話中の最適な行動計画を行う新しい手法を提案する。
GPT-3.5に基づくベースラインモデルと比較して, 動作精度が27.95%向上し, オープンソースモデルでも顕著な向上が見られた。
データセットとコードは公開されています。
関連論文リスト
- SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search [5.079888940901933]
既存の方法は、強欲な行動選択やサンプリング戦略を備えた強化学習エージェントを訓練する。
我々は,モンテカルロ木探索 (MCTS) ベースの CRS フレームワーク SAPIENT を提案する。
SAPIENTは会話エージェント(Sエージェント)と会話プランナー(Sプランナー)で構成される
論文 参考訳(メタデータ) (2024-10-12T16:21:33Z) - Unsupervised Extraction of Dialogue Policies from Conversations [3.102576158218633]
本稿では,データセットから対話ポリシーを抽出する上で,Large Language Modelがいかに有効かを示す。
そこで我々は,制御可能かつ解釈可能なグラフベースの手法を用いて対話ポリシーを生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T14:57:25Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Many Hands Make Light Work: Task-Oriented Dialogue System with Module-Based Mixture-of-Experts [9.129081545049992]
タスク指向対話システムは事前学習言語モデル(PLM)の恩恵を受けている
ソフト混合型タスク指向対話システム(SMETOD)を提案する。
SMETODは、Mixture-of-Experts(MoEs)のアンサンブルを利用してサブプロブレムを最適化し、タスク指向対話のための特殊な出力を生成する。
我々は,意図予測,対話状態追跡,対話応答生成という3つのベンチマーク機能に対して,我々のモデルを広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-16T01:02:09Z) - Unsupervised End-to-End Task-Oriented Dialogue with LLMs: The Power of the Noisy Channel [9.082443585886127]
タスク指向の対話システムは一般的に、APIと対話するためにターンレベルのアノテーションを必要とする。
ラベルなしデータとスキーマ定義は、完全に教師なしの作業タスク指向対話システムを構築するのに十分である。
本稿では,ターンレベルのアノテーションを潜在変数として推論する予測最大化(EM)を用いた革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-23T16:51:26Z) - Large Language Models as Zero-shot Dialogue State Tracker through Function Calling [42.00097476584174]
本稿では,大言語モデル(LLM)を用いた対話状態追跡の関数呼び出しによる解法を提案する。
この方法はゼロショットDSTを改善し、広範囲のデータ収集やモデルチューニングなしに多様なドメインに適応できる。
提案手法は,オープン・ソースとプロプライエタリ・LLMの両面において,極めて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-16T06:13:18Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Symbolic Planning and Code Generation for Grounded Dialogue [78.48668501764385]
大規模言語モデル(LLM)は、テキストとコードの両方の処理と生成に優れる。
本稿では,LLMをシンボリックプランナと接地コード実行で構成することで,欠点に対処する,モジュール型で解釈可能な接地対話システムを提案する。
我々のシステムは、人間の評価におけるタスク成功率を最も困難な環境で56%から69%に改善するなど、従来の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-26T04:22:23Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Leveraging Explicit Procedural Instructions for Data-Efficient Action
Prediction [5.448684866061922]
タスク指向の対話は、しばしばエージェントがユーザ要求を満たすために複雑で多段階の手順を実行する必要がある。
大規模言語モデルは、制約のある環境でこれらの対話を自動化することに成功したが、その広範な展開は、トレーニングに必要なタスク固有の大量のデータによって制限されている。
本稿では,エージェントガイドラインから導出した明示的な指示を利用して対話システムを構築するための,データ効率のよいソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:42:08Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - Controllable Mixed-Initiative Dialogue Generation through Prompting [50.03458333265885]
混合開始対話タスクには、情報の繰り返し交換と会話制御が含まれる。
エージェントは、ポリシープランナーが定める特定の対話意図や戦略に従う応答を生成することにより、コントロールを得る。
標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。
代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換えるように促します。
論文 参考訳(メタデータ) (2023-05-06T23:11:25Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。