論文の概要: Simulation-Free Hierarchical Latent Policy Planning for Proactive Dialogues
- arxiv url: http://arxiv.org/abs/2412.14584v1
- Date: Thu, 19 Dec 2024 07:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:07.626271
- Title: Simulation-Free Hierarchical Latent Policy Planning for Proactive Dialogues
- Title(参考訳): プロアクティブ対話のためのシミュレーション自由階層型潜在ポリシー計画
- Authors: Tao He, Lizi Liao, Yixin Cao, Yuanxing Liu, Yiheng Sun, Zerui Chen, Ming Liu, Bing Qin,
- Abstract要約: 本稿では,新たな対話政策計画フレームワークLDPPを紹介する。
対話記録のマイニングポリシから学習ポリシ計画まで,プロセスを完全に自動化する。
実験により,LDPPは2つの前向きシナリオにおいて既存手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 31.92843134331582
- License:
- Abstract: Recent advancements in proactive dialogues have garnered significant attention, particularly for more complex objectives (e.g. emotion support and persuasion). Unlike traditional task-oriented dialogues, proactive dialogues demand advanced policy planning and adaptability, requiring rich scenarios and comprehensive policy repositories to develop such systems. However, existing approaches tend to rely on Large Language Models (LLMs) for user simulation and online learning, leading to biases that diverge from realistic scenarios and result in suboptimal efficiency. Moreover, these methods depend on manually defined, context-independent, coarse-grained policies, which not only incur high expert costs but also raise concerns regarding their completeness. In our work, we highlight the potential for automatically discovering policies directly from raw, real-world dialogue records. To this end, we introduce a novel dialogue policy planning framework, LDPP. It fully automates the process from mining policies in dialogue records to learning policy planning. Specifically, we employ a variant of the Variational Autoencoder to discover fine-grained policies represented as latent vectors. After automatically annotating the data with these latent policy labels, we propose an Offline Hierarchical Reinforcement Learning (RL) algorithm in the latent space to develop effective policy planning capabilities. Our experiments demonstrate that LDPP outperforms existing methods on two proactive scenarios, even surpassing ChatGPT with only a 1.8-billion-parameter LLM.
- Abstract(参考訳): 近年のプロアクティブ対話の進歩は、特により複雑な目的(例えば、感情支援と説得)に顕著な注目を集めている。
従来のタスク指向の対話とは異なり、プロアクティブな対話は高度なポリシー計画と適応性を必要とし、このようなシステムを開発するにはリッチなシナリオと包括的なポリシーリポジトリを必要とする。
しかし、既存のアプローチでは、ユーザシミュレーションとオンライン学習にLLM(Large Language Models)を頼りにしており、現実的なシナリオから逸脱し、最適以下の効率をもたらすバイアスにつながる。
さらに、これらの手法は、手動で定義された、文脈に依存しない、粗大なポリシーに依存している。
本研究では,生の対話記録から直接ポリシーを発見できる可能性を強調した。
そこで我々は,新たな対話政策計画フレームワークLDPPを紹介した。
対話記録のマイニングポリシから学習ポリシ計画まで,プロセスを完全に自動化する。
具体的には、変分オートエンコーダの変分を用いて、潜在ベクトルとして表されるきめ細かいポリシーを発見する。
潜在ポリシーラベルで自動的にアノテートした後、潜在分野における効果的なポリシー計画機能を開発するために、オフライン階層強化学習(RL)アルゴリズムを提案する。
実験の結果,LDPP は 1.8ビリオンパラメータ LLM で ChatGPT を上回り, 2 つのプロアクティブシナリオにおいて既存手法よりも優れた性能を示した。
関連論文リスト
- Planning with Large Language Models for Conversational Agents [51.12859325330882]
自律会話エージェント(CA)の制御性と能動性は重要な性質である
大規模言語モデル(LLM)を利用した計画型対話エージェントのための新しいフレームワークを提案する。
実験の結果,PCA-Dで微調整されたLCMは性能を著しく向上し,未確認領域に一般化できることがわかった。
論文 参考訳(メタデータ) (2024-07-04T12:23:02Z) - Unsupervised Extraction of Dialogue Policies from Conversations [3.102576158218633]
本稿では,データセットから対話ポリシーを抽出する上で,Large Language Modelがいかに有効かを示す。
そこで我々は,制御可能かつ解釈可能なグラフベースの手法を用いて対話ポリシーを生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T14:57:25Z) - Planning Like Human: A Dual-process Framework for Dialogue Planning [31.995557540062553]
大規模言語モデル(LLM)における対話計画を強化するための2段階対話計画フレームワークを提案する。
心理学における二重過程理論に触発されて、直感的(高速)と分析的(スロー)の2つの思考様式を具現化した枠組みを提案する。
実験により,DPDPが高品質な対話と操作効率を両立し,既存手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-08T06:52:47Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Why Guided Dialog Policy Learning performs well? Understanding the role
of adversarial learning and its alternative [0.44267358790081573]
近年では、ダイアログポリシー学習(DPL)のための有望な選択肢として強化学習が登場している。
収集データから報酬を推定する方法の1つは、相手学習(AL)を用いて報酬推定器と対話ポリシーを同時に訓練することである。
本稿では,DPLにおけるALの役割を,ダイアログポリシと報酬推定器の目的関数の詳細な分析を通じて明らかにする。
本稿では,ALを報酬推定から排除し,その利点を保ちながらDPLを除去する手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T12:29:29Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Policy-Driven Neural Response Generation for Knowledge-Grounded Dialogue
Systems [18.375851346138155]
Seq2seqのニューラルレスポンス生成アプローチは、生成されたレスポンスの内容やスタイルを制御するための明確なメカニズムを持っていない。
本稿では、対話ポリシーを用いて、アクションプランの形式でターゲット応答の内容とスタイルを計画する。
文レベルで動作させる基本対話ポリシーは,ターンレベル生成よりも応答性がよいことを示す。
論文 参考訳(メタデータ) (2020-05-26T06:09:57Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。