Fugu-MT 論文翻訳(概要): Towards Open-Ended Emotional Support Conversations in LLMs via Reinforcement Learning with Future-Oriented Rewards

論文の概要: Towards Open-Ended Emotional Support Conversations in LLMs via Reinforcement Learning with Future-Oriented Rewards

arxiv url: http://arxiv.org/abs/2508.12935v1
Date: Mon, 18 Aug 2025 14:04:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:11.365574
Title: Towards Open-Ended Emotional Support Conversations in LLMs via Reinforcement Learning with Future-Oriented Rewards
Title（参考訳）: 未来志向リワードによる強化学習によるLLMのオープンエンディング感情支援会話に向けて
Authors: Ting Yang, Li Chen, Huimin Wang,
Abstract要約: Emotional Support Conversation systemは、ユーザの感情的困難を軽減し、感情的幸福を長期的かつ体系的に支援することを目的としている。ほとんどの大規模言語モデル(LLM)ベースのESCシステムは、複雑な実生活シナリオでの有効性を制限する事前定義された戦略に依存している。本稿では、強化学習を用いて、感情的支援力を直接学習する新しいエンドツーエンドフレームワーク(RLFF-ESC)を提案する。
参考スコア（独自算出の注目度）: 13.938394655357916
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Emotional Support Conversation (ESC) systems aim to alleviate users' emotional difficulties and provide long-term, systematic support for emotional well-being. However, most large language model (LLM)-based ESC systems rely on predefined strategies, which limits their effectiveness in complex, real-life scenarios. To enable flexible responses to diverse emotional problem scenarios, this paper introduces a novel end-to-end framework (RLFF-ESC) that directly learns enduring emotionally supportive response skills using reinforcement learning. For sustained emotional support, we first employ an LLM-based multi-agent mechanism to simulate future dialogue trajectories and collect future-oriented rewards. We then train a future-oriented reward model, which is subsequently used to train the emotional support policy model. Additionally, we incorporate an explicit reasoning process during response generation to further enhance the quality, relevance, and contextual appropriateness of the system's responses. We evaluate the backbone policy model on Qwen2.5-7B-Instruct-1M and LLaMA3.1-8B-Instruct models, testing the proposed RLFF-ESC framework across two public ESC datasets. Experimental results demonstrate that RLFF-ESC consistently outperforms existing baselines in terms of goal completion and response quality.
Abstract（参考訳）: Emotional Support Conversation (ESC) システムは、ユーザの感情的困難を軽減し、感情的幸福を長期的かつ体系的に支援することを目的としている。しかし、ほとんどの大規模言語モデル(LLM)ベースのESCシステムは、複雑な実生活シナリオにおいての有効性を制限する事前定義された戦略に依存している。多様な感情的問題シナリオに対する柔軟な対応を実現するために,強化学習を用いて感情的支援力を直接学習する新しいエンドツーエンドフレームワーク(RLFF-ESC)を提案する。情緒的支援のために、まずLLMに基づくマルチエージェント機構を用いて、将来の対話の軌跡をシミュレートし、未来志向の報酬を収集する。次に、未来志向の報酬モデルをトレーニングし、その後、感情支援政策モデルをトレーニングするために使用される。さらに、応答生成中に明示的な推論プロセスを導入し、システムの応答の品質、関連性、文脈的適切性をさらに向上させる。我々はQwen2.5-7B-Instruct-1MとLLaMA3.1-8B-Instructモデルのバックボーンポリシーモデルを評価し、提案したRLFF-ESCフレームワークを2つの公開ESCデータセットで検証した。実験結果から,RLFF-ESCはゴール完了率や応答品質において,既存のベースラインを一貫して上回ることがわかった。

論文の概要: Towards Open-Ended Emotional Support Conversations in LLMs via Reinforcement Learning with Future-Oriented Rewards

関連論文リスト