論文の概要: Planning Like Human: A Dual-process Framework for Dialogue Planning
- arxiv url: http://arxiv.org/abs/2406.05374v1
- Date: Sat, 8 Jun 2024 06:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 20:04:51.629752
- Title: Planning Like Human: A Dual-process Framework for Dialogue Planning
- Title(参考訳): 人間のようなプランニング:対話プランニングのためのデュアルプロセスフレームワーク
- Authors: Tao He, Lizi Liao, Yixin Cao, Yuanxing Liu, Ming Liu, Zerui Chen, Bing Qin,
- Abstract要約: 大規模言語モデル(LLM)における対話計画を強化するための2段階対話計画フレームワークを提案する。
心理学における二重過程理論に触発されて、直感的(高速)と分析的(スロー)の2つの思考様式を具現化した枠組みを提案する。
実験により,DPDPが高品質な対話と操作効率を両立し,既存手法よりも優れていることを確認した。
- 参考スコア(独自算出の注目度): 31.995557540062553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In proactive dialogue, the challenge lies not just in generating responses but in steering conversations toward predetermined goals, a task where Large Language Models (LLMs) typically struggle due to their reactive nature. Traditional approaches to enhance dialogue planning in LLMs, ranging from elaborate prompt engineering to the integration of policy networks, either face efficiency issues or deliver suboptimal performance. Inspired by the dualprocess theory in psychology, which identifies two distinct modes of thinking - intuitive (fast) and analytical (slow), we propose the Dual-Process Dialogue Planning (DPDP) framework. DPDP embodies this theory through two complementary planning systems: an instinctive policy model for familiar contexts and a deliberative Monte Carlo Tree Search (MCTS) mechanism for complex, novel scenarios. This dual strategy is further coupled with a novel two-stage training regimen: offline Reinforcement Learning for robust initial policy model formation followed by MCTS-enhanced on-the-fly learning, which ensures a dynamic balance between efficiency and strategic depth. Our empirical evaluations across diverse dialogue tasks affirm DPDP's superiority in achieving both high-quality dialogues and operational efficiency, outpacing existing methods.
- Abstract(参考訳): 積極的対話では、課題は応答を生成するだけでなく、所定の目標に向けて会話を操ることにある。
LLMにおける対話計画を強化する従来のアプローチは、精巧なプロンプトエンジニアリングからポリシーネットワークの統合まで、効率上の問題に直面したり、準最適性能を提供するものまで様々である。
直感的(高速)と分析的(低速)の2つの異なる思考様式を識別する心理学における二重プロセス理論に着想を得て,両プロセス対話計画(DPDP)フレームワークを提案する。
DPDPはこの理論を、2つの補完的な計画システムを通して具体化している: 親しみやすい文脈に対する本能的なポリシーモデルと、複雑で斬新なシナリオのための熟考的モンテカルロ木探索(MCTS)機構である。
堅牢な初期政策モデル形成のためのオフライン強化学習と、MCTSが強化したオンザフライ学習により、効率性と戦略的深さの動的バランスが保証される。
多様な対話課題に対する実証的な評価は、DPDPが高品質な対話と運用効率の両方を達成し、既存の手法よりも優れていることを裏付けるものである。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Strength Lies in Differences! Improving Strategy Planning for Non-collaborative Dialogues via Diversified User Simulation [69.5677514160986]
本研究では,多様なユーザとの戦略的対話に携わる非協力的対話エージェントについて検討する。
これは既存の対話エージェントに2つの大きな課題をもたらす。
本稿では,ユーザ認識型戦略計画モジュールと人口ベーストレーニングパラダイムを取り入れた,適切な戦略計画の能力を高めるためのTripを提案する。
論文 参考訳(メタデータ) (2024-03-11T14:38:16Z) - Target-constrained Bidirectional Planning for Generation of
Target-oriented Proactive Dialogue [11.338393954848632]
ターゲット指向対話生成のための効果的な対話計画に着目する。
認知科学における意思決定理論に着想を得て,新たな目標制約型双方向計画手法を提案する。
我々のアルゴリズムは、様々なベースラインモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-03-10T02:14:24Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Multi-Stage Coarse-to-Fine Contrastive Learning for Conversation Intent
Induction [34.25242109800481]
本稿では,第11回対話システム技術チャレンジ(DSTC11)におけるタスク指向対話における会話からのインテントインジェクションの追跡方法について述べる。
意図的クラスタリングの本質は、異なる対話発話の表現を区別することにある。
DSTC11の評価結果では,このトラックの2つのサブタスクのうちの1位が提案システムである。
論文 参考訳(メタデータ) (2023-03-09T04:51:27Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。