論文の概要: Tailored Conversations beyond LLMs: A RL-Based Dialogue Manager
- arxiv url: http://arxiv.org/abs/2506.19652v1
- Date: Tue, 24 Jun 2025 14:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.667997
- Title: Tailored Conversations beyond LLMs: A RL-Based Dialogue Manager
- Title(参考訳): LLMを超えた台詞会話:RLベースの対話マネージャ
- Authors: Lucie Galland, Catherine Pelachaud, Florian Pecune,
- Abstract要約: 本稿では,大規模言語モデル(LLM)をRLベースの対話マネージャと統合して,特定の目的を持ったオープンエンド対話を実現するフレームワークを提案する。
階層的強化学習を用いて対話の構造化フェーズをモデル化し,メタラーニングを用いて多様なユーザプロファイル間の適応性を向上する。
- 参考スコア(独自算出の注目度): 0.7499722271664147
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we propose a novel framework that integrates large language models (LLMs) with an RL-based dialogue manager for open-ended dialogue with a specific goal. By leveraging hierarchical reinforcement learning to model the structured phases of dialogue and employ meta-learning to enhance adaptability across diverse user profiles, our approach enhances adaptability and efficiency, enabling the system to learn from limited data, transition fluidly between dialogue phases, and personalize responses to heterogeneous patient needs. We apply our framework to Motivational Interviews, aiming to foster behavior change, and demonstrate that the proposed dialogue manager outperforms a state-of-the-art LLM baseline in terms of reward, showing a potential benefit of conditioning LLMs to create open-ended dialogue systems with specific goals.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)をRLベースの対話マネージャと統合し,特定の目的を持ったオープンエンド対話を実現する新しいフレームワークを提案する。
階層的強化学習を利用して対話の構造化フェーズをモデル化し,メタラーニングを用いて多様なユーザプロファイル間の適応性を高めることにより,適応性と効率性を高め,限られたデータから学習し,対話フェーズ間で流動的に遷移し,異種患者のニーズに対する応答をパーソナライズする。
我々は,モチベーション・インタヴューに枠組みを適用し,行動変化の促進をめざして,提案した対話マネージャが報酬の観点から最先端のLLMベースラインを上回り,特定の目標を持ったオープンエンド対話システムを構築することの潜在的メリットを示す。
関連論文リスト
- Training Dialogue Systems by AI Feedback for Improving Overall Dialogue Impression [9.005722141359675]
本研究は、対話応答を評価するために、対話全体の印象に関連する12の指標に対応する報酬モデルを構築した。
システム印象を改善するために,報酬モデル信号を用いて対話モデルを調整した。
論文 参考訳(メタデータ) (2025-01-22T08:14:51Z) - Data Augmentation Integrating Dialogue Flow and Style to Adapt Spoken Dialogue Systems to Low-Resource User Groups [1.7725414095035827]
本研究では,音声対話システム(SDS)が,対話行動の異なるユーザと対話する場合に直面する課題について考察する。
限られたリソースを持つユーザグループのSDS性能を向上させるための新しいデータ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-20T03:33:04Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。