論文の概要: DialogXpert: Driving Intelligent and Emotion-Aware Conversations through Online Value-Based Reinforcement Learning with LLM Priors
- arxiv url: http://arxiv.org/abs/2505.17795v1
- Date: Fri, 23 May 2025 12:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.050297
- Title: DialogXpert: Driving Intelligent and Emotion-Aware Conversations through Online Value-Based Reinforcement Learning with LLM Priors
- Title(参考訳): DialogXpert: LLMによるオンライン価値ベース強化学習による知的・感情認識会話の促進
- Authors: Tazeek Bin Abdur Rakib, Ambuj Mehrish, Lay-Ki Soon, Wern Han Lim, Soujanya Poria,
- Abstract要約: 大言語モデル(LLM)エージェントは、反応対話において優れるが、プロアクティブでゴール駆動的な相互作用に苦しむ。
提案するダイアログXpertは,各ターンごとに,小型で高品質な候補アクションセットを提案する。
ユーザの感情を追跡することで、DialogXpertは、真の共感的なつながりを育みながら、タスクを前進させる決定をそれぞれ調整する。
- 参考スコア(独自算出の注目度): 19.83349341267686
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large-language-model (LLM) agents excel at reactive dialogue but struggle with proactive, goal-driven interactions due to myopic decoding and costly planning. We introduce DialogXpert, which leverages a frozen LLM to propose a small, high-quality set of candidate actions per turn and employs a compact Q-network over fixed BERT embeddings trained via temporal-difference learning to select optimal moves within this reduced space. By tracking the user's emotions, DialogXpert tailors each decision to advance the task while nurturing a genuine, empathetic connection. Across negotiation, emotional support, and tutoring benchmarks, DialogXpert drives conversations to under $3$ turns with success rates exceeding 94\% and, with a larger LLM prior, pushes success above 97\% while markedly improving negotiation outcomes. This framework delivers real-time, strategic, and emotionally intelligent dialogue planning at scale. Code available at https://github.com/declare-lab/dialogxpert/
- Abstract(参考訳): 大言語モデル(LLM)エージェントは、反応対話において優れるが、筋電図の復号化とコストのかかる計画のために、積極的に目標駆動的な相互作用に苦慮する。
本稿では, 凍結LDMを利用して, 1回に1回ずつ, 小型で高品質な候補動作を提案するダイアログXpertを紹介し, 時間差学習により訓練した固定BERT埋め込みに対して, コンパクトなQ-ネットワークを用いて, この縮小された空間内での最適な動きを選択する。
ユーザの感情を追跡することで、DialogXpertは、真の共感的なつながりを育みながら、タスクを前進させる決定をそれぞれ調整する。
DialogXpertは、交渉、感情的サポート、学習ベンチマークを通じて、成功率94\%以上で会話を3ドル以下に駆動し、LLMよりも大きく、97\%以上の成功を推し進め、交渉結果を著しく改善している。
このフレームワークは、大規模にリアルタイム、戦略的、感情的にインテリジェントな対話計画を提供する。
https://github.com/declare-lab/dialogxpert/
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - DialogueBERT: A Self-Supervised Learning based Dialogue Pre-training
Encoder [19.51263716065853]
本稿では,人気のある事前学習型言語モデルBERTに基づく新しい文脈対話エンコーダ(ダイアログBERT)を提案する。
5つの自己教師型学習事前学習課題が,対話音声の特異性を学習するために考案された。
DialogueBERTは、実シナリオで7000万の対話で事前訓練され、3つの異なる下流対話理解タスクで微調整された。
論文 参考訳(メタデータ) (2021-09-22T01:41:28Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。