論文の概要: Towards Open-Ended Emotional Support Conversations in LLMs via Reinforcement Learning with Future-Oriented Rewards
- arxiv url: http://arxiv.org/abs/2508.12935v1
- Date: Mon, 18 Aug 2025 14:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.365574
- Title: Towards Open-Ended Emotional Support Conversations in LLMs via Reinforcement Learning with Future-Oriented Rewards
- Title(参考訳): 未来志向リワードによる強化学習によるLLMのオープンエンディング感情支援会話に向けて
- Authors: Ting Yang, Li Chen, Huimin Wang,
- Abstract要約: Emotional Support Conversation systemは、ユーザの感情的困難を軽減し、感情的幸福を長期的かつ体系的に支援することを目的としている。
ほとんどの大規模言語モデル(LLM)ベースのESCシステムは、複雑な実生活シナリオでの有効性を制限する事前定義された戦略に依存している。
本稿では、強化学習を用いて、感情的支援力を直接学習する新しいエンドツーエンドフレームワーク(RLFF-ESC)を提案する。
- 参考スコア(独自算出の注目度): 13.938394655357916
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Emotional Support Conversation (ESC) systems aim to alleviate users' emotional difficulties and provide long-term, systematic support for emotional well-being. However, most large language model (LLM)-based ESC systems rely on predefined strategies, which limits their effectiveness in complex, real-life scenarios. To enable flexible responses to diverse emotional problem scenarios, this paper introduces a novel end-to-end framework (RLFF-ESC) that directly learns enduring emotionally supportive response skills using reinforcement learning. For sustained emotional support, we first employ an LLM-based multi-agent mechanism to simulate future dialogue trajectories and collect future-oriented rewards. We then train a future-oriented reward model, which is subsequently used to train the emotional support policy model. Additionally, we incorporate an explicit reasoning process during response generation to further enhance the quality, relevance, and contextual appropriateness of the system's responses. We evaluate the backbone policy model on Qwen2.5-7B-Instruct-1M and LLaMA3.1-8B-Instruct models, testing the proposed RLFF-ESC framework across two public ESC datasets. Experimental results demonstrate that RLFF-ESC consistently outperforms existing baselines in terms of goal completion and response quality.
- Abstract(参考訳): Emotional Support Conversation (ESC) システムは、ユーザの感情的困難を軽減し、感情的幸福を長期的かつ体系的に支援することを目的としている。
しかし、ほとんどの大規模言語モデル(LLM)ベースのESCシステムは、複雑な実生活シナリオにおいての有効性を制限する事前定義された戦略に依存している。
多様な感情的問題シナリオに対する柔軟な対応を実現するために,強化学習を用いて感情的支援力を直接学習する新しいエンドツーエンドフレームワーク(RLFF-ESC)を提案する。
情緒的支援のために、まずLLMに基づくマルチエージェント機構を用いて、将来の対話の軌跡をシミュレートし、未来志向の報酬を収集する。
次に、未来志向の報酬モデルをトレーニングし、その後、感情支援政策モデルをトレーニングするために使用される。
さらに、応答生成中に明示的な推論プロセスを導入し、システムの応答の品質、関連性、文脈的適切性をさらに向上させる。
我々はQwen2.5-7B-Instruct-1MとLLaMA3.1-8B-Instructモデルのバックボーンポリシーモデルを評価し、提案したRLFF-ESCフレームワークを2つの公開ESCデータセットで検証した。
実験結果から,RLFF-ESCはゴール完了率や応答品質において,既存のベースラインを一貫して上回ることがわかった。
関連論文リスト
- IntentionESC: An Intention-Centered Framework for Enhancing Emotional Support in Dialogue Systems [74.0855067343594]
感情的支援の会話では、意図の不明確さは、支持者に不適切な戦略を採用させる可能性がある。
Intention-centered Emotional Support Conversation frameworkを提案する。
支援者の意図を定義し、これらの意図を推測するための重要な感情状態の側面を特定し、それらを適切な支援戦略にマッピングする。
論文 参考訳(メタデータ) (2025-06-06T10:14:49Z) - Convert Language Model into a Value-based Strategic Planner [11.070654717643816]
感情支援会話(ESC)は、効果的な会話を通じて個人の感情的苦痛を軽減することを目的としている。
状態モデルの観点からダイアグラムを定義するために,straQ* というフレームワークを提案する。
当社のフレームワークでは,ESC中にLCMをブートストラップし,長期的リターンに基づいて最適な戦略を決定し,最終的にLSMの応答を誘導する。
論文 参考訳(メタデータ) (2025-05-11T14:13:58Z) - ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models [55.301188787490545]
Emotion Support Conversation (ESC)は、人間のストレスを減らし、感情的なガイダンスを提供し、人間の精神的および身体的幸福を高めることを目的としている。
ロールプレイングエージェントを用いてESCモデルと対話するESC評価フレームワーク(ESC-Eval)を提案する。
異なるESCモデルの対話型マルチターン対話において、包括的なヒューマンアノテーションを行う。
論文 参考訳(メタデータ) (2024-06-21T08:03:33Z) - Building Emotional Support Chatbots in the Era of LLMs [64.06811786616471]
我々は,Large Language Models (LLMs) の計算能力で人間の洞察を合成する革新的な方法論を導入する。
また,ChatGPTの文脈内学習の可能性を利用して,ExTESと呼ばれる感情支援対話データセットを生成する。
次に、LLaMAモデルに高度なチューニング手法を展開し、多様なトレーニング戦略の影響を検証し、最終的に感情的支援の相互作用に細心の注意を払ってLLMを出力する。
論文 参考訳(メタデータ) (2023-08-17T10:49:18Z) - Improving Multi-turn Emotional Support Dialogue Generation with
Lookahead Strategy Planning [81.79431311952656]
感情支援のための新しいシステムMultiESCを提案する。
戦略プランニングでは,特定の戦略を使用した後のユーザフィードバックを見積もるルックアヘッドを提案する。
ユーザ状態モデリングにおいて、MultiESCはユーザーの微妙な感情表現を捉え、感情の原因を理解することに重点を置いている。
論文 参考訳(メタデータ) (2022-10-09T12:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。