論文の概要: RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents
- arxiv url: http://arxiv.org/abs/2507.03112v1
- Date: Thu, 03 Jul 2025 18:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.581558
- Title: RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents
- Title(参考訳): RLVER:共感エージェントのための感情逆流の検証による強化学習
- Authors: Peisong Wang, Ruotian Ma, Bang Zhang, Xingyu Chen, Zhiwei He, Kang Luo, Qingsong Lv, Qingxuan Jiang, Zheng Xie, Shanyi Wang, Yuan Li, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li,
- Abstract要約: 大規模言語モデル(LLM)は論理的およびアルゴリズム的推論において優れているが、彼らの感情的知性(EQ)は認知能力よりもはるかに遅れている。
シミュレーションユーザによる検証可能な感情報酬を活用する,最初のエンドツーエンド強化学習フレームワークであるRLVERを紹介する。
以上の結果から,RLVERは感情的知的で幅広い言語エージェントへの実践的な経路であることが示唆された。
- 参考スコア(独自算出の注目度): 67.46032287312339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel at logical and algorithmic reasoning, yet their emotional intelligence (EQ) still lags far behind their cognitive prowess. While reinforcement learning from verifiable rewards (RLVR) has advanced in other domains, its application to dialogue-especially for emotional intelligence-remains underexplored. In this work, we introduce RLVER, the first end-to-end reinforcement learning framework that leverages verifiable emotion rewards from simulated users to cultivate higher-order empathetic abilities in LLMs. Within this framework, self-consistent affective simulated users engage in dialogue rollouts and produce deterministic emotion scores during conversations, serving as reward signals to guide the LLM's learning. Fine-tuning publicly available Qwen2.5-7B-Instruct model with PPO boosts its Sentient-Benchmark score from 13.3 to 79.2 while largely preserving mathematical and coding competence. Extensive experiments reveal that: (i) RLVER consistently improves multiple dialogue capabilities; (ii) Thinking and non-thinking models show distinct trends--thinking models excel in empathy and insight, while non-thinking models favor action; (iii) GRPO often yields stable gains, while PPO can push certain capabilities to a higher ceiling; (iv) More challenging environments are not always better-moderate ones can yield stronger outcomes. Our results show that RLVER is a practical route toward emotionally intelligent and broadly capable language agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は論理的およびアルゴリズム的推論において優れているが、彼らの感情的知性(EQ)は認知能力よりもはるかに遅れている。
検証可能な報酬(RLVR)からの強化学習は他の領域でも進歩してきたが、対話、特に感情的知性に乏しい遺物への応用が検討されている。
本研究では,LLMにおける高次共感能力の育成にシミュレーションユーザからの検証可能な感情報酬を活用する,最初のエンドツーエンド強化学習フレームワークであるRLVERを紹介する。
このフレームワーク内では、自己一貫性のある感情的シミュレートされたユーザが対話のロールアウトを行い、会話中に決定論的感情スコアを生成し、LLMの学習をガイドするための報酬信号として機能する。
PPOを使用したQwen2.5-7B-インストラクトモデルでは、Sentient-Benchmarkのスコアが13.3から79.2に向上し、数学とコーディングの能力はほとんど維持されている。
大規模な実験の結果、以下のことが判明した。
(i)RLVERは、一貫して複数の対話機能を改善します。
(二)思考モデル及び非思考モデルは、異なる傾向を示す。-共感と洞察に優れた思考モデル、非思考モデルは行動を好む。
三 GRPOは、しばしば安定した利得を得る一方、PPOは特定の機能を高い天井に押し上げることができる。
(4)より困難な環境は、常により良いモデレート環境であるとは限らない。
以上の結果から,RLVERは感情的知的で幅広い言語エージェントへの実践的な経路であることが示唆された。
関連論文リスト
- AI with Emotions: Exploring Emotional Expressions in Large Language Models [0.0]
大きな言語モデル(LLM)は、特定の感情状態で質問に答えるエージェントとしてロールプレイを行う。
ラッセルの「サイクムプレックス」モデルは、眠気(覚醒)と快楽(静寂)の軸に沿った感情を特徴づける。
評価の結果, 生成した回答の感情状態は, 仕様と一致していた。
論文 参考訳(メタデータ) (2025-04-20T18:49:25Z) - Enhancing Collective Intelligence in Large Language Models Through Emotional Integration [0.2812395851874055]
本研究では,大規模言語モデル (LLM) への感情的多様性の統合を,集団知能を高めるために検討する。
群衆現象の人間の知恵に触発され、GoogleのGoEmotionsデータセットとローランド適応(LoRA)を用いてDarkIdol-Llama-3.1-8Bモデルを微調整し、感情的に多様な応答をシミュレートした。
論文 参考訳(メタデータ) (2025-03-05T23:42:48Z) - AER-LLM: Ambiguity-aware Emotion Recognition Leveraging Large Language Models [18.482881562645264]
この研究は、あいまいな感情を認識する上でのLarge Language Models(LLM)の可能性を探究する最初のものである。
我々はゼロショットと少数ショットのプロンプトを設計し、過去の対話を曖昧な感情認識のための文脈情報として組み込んだ。
論文 参考訳(メタデータ) (2024-09-26T23:25:21Z) - An Appraisal-Based Chain-Of-Emotion Architecture for Affective Language
Model Game Agents [0.40964539027092906]
本研究では,感情的知性課題の解決と感情のシミュレートを目的とした大規模言語モデルの能力について検討する。
心理学的評価研究に基づいて,ゲーム内の感情シミュレーションのための新たな感情連鎖アーキテクチャを提示し,評価する。
論文 参考訳(メタデータ) (2023-09-10T16:55:49Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。