論文の概要: Towards Open-Ended Emotional Support Conversations in LLMs via Reinforcement Learning with Future-Oriented Rewards
- arxiv url: http://arxiv.org/abs/2508.12935v1
- Date: Mon, 18 Aug 2025 14:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.365574
- Title: Towards Open-Ended Emotional Support Conversations in LLMs via Reinforcement Learning with Future-Oriented Rewards
- Title(参考訳): 未来志向リワードによる強化学習によるLLMのオープンエンディング感情支援会話に向けて
- Authors: Ting Yang, Li Chen, Huimin Wang,
- Abstract要約: Emotional Support Conversation systemは、ユーザの感情的困難を軽減し、感情的幸福を長期的かつ体系的に支援することを目的としている。
ほとんどの大規模言語モデル(LLM)ベースのESCシステムは、複雑な実生活シナリオでの有効性を制限する事前定義された戦略に依存している。
本稿では、強化学習を用いて、感情的支援力を直接学習する新しいエンドツーエンドフレームワーク(RLFF-ESC)を提案する。
- 参考スコア(独自算出の注目度): 13.938394655357916
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Emotional Support Conversation (ESC) systems aim to alleviate users' emotional difficulties and provide long-term, systematic support for emotional well-being. However, most large language model (LLM)-based ESC systems rely on predefined strategies, which limits their effectiveness in complex, real-life scenarios. To enable flexible responses to diverse emotional problem scenarios, this paper introduces a novel end-to-end framework (RLFF-ESC) that directly learns enduring emotionally supportive response skills using reinforcement learning. For sustained emotional support, we first employ an LLM-based multi-agent mechanism to simulate future dialogue trajectories and collect future-oriented rewards. We then train a future-oriented reward model, which is subsequently used to train the emotional support policy model. Additionally, we incorporate an explicit reasoning process during response generation to further enhance the quality, relevance, and contextual appropriateness of the system's responses. We evaluate the backbone policy model on Qwen2.5-7B-Instruct-1M and LLaMA3.1-8B-Instruct models, testing the proposed RLFF-ESC framework across two public ESC datasets. Experimental results demonstrate that RLFF-ESC consistently outperforms existing baselines in terms of goal completion and response quality.
- Abstract(参考訳): Emotional Support Conversation (ESC) システムは、ユーザの感情的困難を軽減し、感情的幸福を長期的かつ体系的に支援することを目的としている。
しかし、ほとんどの大規模言語モデル(LLM)ベースのESCシステムは、複雑な実生活シナリオにおいての有効性を制限する事前定義された戦略に依存している。
多様な感情的問題シナリオに対する柔軟な対応を実現するために,強化学習を用いて感情的支援力を直接学習する新しいエンドツーエンドフレームワーク(RLFF-ESC)を提案する。
情緒的支援のために、まずLLMに基づくマルチエージェント機構を用いて、将来の対話の軌跡をシミュレートし、未来志向の報酬を収集する。
次に、未来志向の報酬モデルをトレーニングし、その後、感情支援政策モデルをトレーニングするために使用される。
さらに、応答生成中に明示的な推論プロセスを導入し、システムの応答の品質、関連性、文脈的適切性をさらに向上させる。
我々はQwen2.5-7B-Instruct-1MとLLaMA3.1-8B-Instructモデルのバックボーンポリシーモデルを評価し、提案したRLFF-ESCフレームワークを2つの公開ESCデータセットで検証した。
実験結果から,RLFF-ESCはゴール完了率や応答品質において,既存のベースラインを一貫して上回ることがわかった。
関連論文リスト
- EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models [62.3977734456669]
マルチモーダル大規模言語モデル(MLLM)の感情的推論能力を高めるためのフレームワークとして,情緒的推論のための反射強化学習(EMO-R3)を提案する。
構造化された感情的思考を導入し、構造化された解釈可能な方法で段階的に感情的推論を行い、そのモデルが視覚的テキストの一貫性と感情的コヒーレンスに基づいてその推論を再評価できる反射的感情的回帰を設計する。
EMO-R3はMLLMの解釈可能性と感情的インテリジェンスの両方を大幅に改善し、複数の視覚的感情理解ベンチマークにおいて優れた性能を達成する。
論文 参考訳(メタデータ) (2026-02-27T08:42:52Z) - Emotional Support with LLM-based Empathetic Dialogue Generation [5.289702620838033]
本稿では, NLPCC 2025 Task 8 ESC 評価のためのソリューションを提案する。
我々は,素早い工学的手法と微調整技術によって強化された大規模言語モデルを活用する。
論文 参考訳(メタデータ) (2025-07-17T06:24:20Z) - IntentionESC: An Intention-Centered Framework for Enhancing Emotional Support in Dialogue Systems [74.0855067343594]
感情的支援の会話では、意図の不明確さは、支持者に不適切な戦略を採用させる可能性がある。
Intention-centered Emotional Support Conversation frameworkを提案する。
支援者の意図を定義し、これらの意図を推測するための重要な感情状態の側面を特定し、それらを適切な支援戦略にマッピングする。
論文 参考訳(メタデータ) (2025-06-06T10:14:49Z) - Convert Language Model into a Value-based Strategic Planner [11.070654717643816]
感情支援会話(ESC)は、効果的な会話を通じて個人の感情的苦痛を軽減することを目的としている。
状態モデルの観点からダイアグラムを定義するために,straQ* というフレームワークを提案する。
当社のフレームワークでは,ESC中にLCMをブートストラップし,長期的リターンに基づいて最適な戦略を決定し,最終的にLSMの応答を誘導する。
論文 参考訳(メタデータ) (2025-05-11T14:13:58Z) - FiSMiness: A Finite State Machine Based Paradigm for Emotional Support Conversations [11.718316719735832]
感情支援会話(ESC)は、効果的な会話を通じて個人の感情的苦痛を軽減することを目的としている。
我々は、FSM(Finite State Machine)を大規模言語モデルに活用し、FiSMinessと呼ばれるフレームワークを提案する。
我々のフレームワークは、単一のLCMがESC中のプランニングをブートストラップし、探索者の感情、支援戦略、そして各会話のターンに対する最終応答を自己推論することを可能にする。
論文 参考訳(メタデータ) (2025-04-16T07:52:06Z) - Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter [71.17800993332175]
そこで我々は,各対話における戦略選択の選好を最適化する新しいアプローチであるChain-of-Strategy Optimization (CSO)を提案する。
まずモンテカルロ木探索を用いて,ターンレベルの戦略応答対を持つ高品質な選好データセットであるESC-Proを構築した。
CSOを用いたESC-Proのトレーニングは、戦略精度とバイアス軽減の両方を改善し、LLMがより共感的で文脈的に適切な応答を生成できるようにする。
論文 参考訳(メタデータ) (2025-03-07T12:07:59Z) - ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models [55.301188787490545]
Emotion Support Conversation (ESC)は、人間のストレスを減らし、感情的なガイダンスを提供し、人間の精神的および身体的幸福を高めることを目的としている。
ロールプレイングエージェントを用いてESCモデルと対話するESC評価フレームワーク(ESC-Eval)を提案する。
異なるESCモデルの対話型マルチターン対話において、包括的なヒューマンアノテーションを行う。
論文 参考訳(メタデータ) (2024-06-21T08:03:33Z) - FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models [14.894922829587841]
感情支援会話(Emotional Support Conversation、ESC)は、感情的なプレッシャーを軽減できる典型的な対話である。
現在の非芸術的方法論は、感情的支援能力を効果的に評価する上で困難に直面している。
本稿では,感情支援能力を評価するために,Large Language Models (LLMs) を用いた新しいモデルFEELを提案する。
論文 参考訳(メタデータ) (2024-03-23T03:32:26Z) - Building Emotional Support Chatbots in the Era of LLMs [64.06811786616471]
我々は,Large Language Models (LLMs) の計算能力で人間の洞察を合成する革新的な方法論を導入する。
また,ChatGPTの文脈内学習の可能性を利用して,ExTESと呼ばれる感情支援対話データセットを生成する。
次に、LLaMAモデルに高度なチューニング手法を展開し、多様なトレーニング戦略の影響を検証し、最終的に感情的支援の相互作用に細心の注意を払ってLLMを出力する。
論文 参考訳(メタデータ) (2023-08-17T10:49:18Z) - Improving Multi-turn Emotional Support Dialogue Generation with
Lookahead Strategy Planning [81.79431311952656]
感情支援のための新しいシステムMultiESCを提案する。
戦略プランニングでは,特定の戦略を使用した後のユーザフィードバックを見積もるルックアヘッドを提案する。
ユーザ状態モデリングにおいて、MultiESCはユーザーの微妙な感情表現を捉え、感情の原因を理解することに重点を置いている。
論文 参考訳(メタデータ) (2022-10-09T12:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。