論文の概要: Kardia-R1: Unleashing LLMs to Reason toward Understanding and Empathy for Emotional Support via Rubric-as-Judge Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.01282v1
- Date: Mon, 01 Dec 2025 04:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.688715
- Title: Kardia-R1: Unleashing LLMs to Reason toward Understanding and Empathy for Emotional Support via Rubric-as-Judge Reinforcement Learning
- Title(参考訳): Kardia-R1:ルーブリック・アズ・ジャッジ強化学習による感情支援の理解と共感に向けてのLLMの公開
- Authors: Jiahao Yuan, Zhiqing Cui, Hanqing Wang, Yuansheng Gao, Yucheng Zhou, Usman Naseem,
- Abstract要約: KardiaBenchは、22,080の会話で178,080のQAペアで構成され、671の現実世界プロファイルにアンロックされた大規模なユーザグラウンドベンチマークである。
Kardia-R1は、解釈可能な、段階的な共感的認知のためのモデルを訓練するフレームワークである。
私たちのデータセットとモデルはhttps://github.com/JhCircle/Kardia-R1.comでリリースされます。
- 参考スコア(独自算出の注目度): 20.717092979679553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As web platforms evolve towards greater personalization and emotional complexity, conversational agents must transcend superficial empathy to demonstrate identity-aware emotional reasoning. However, existing systems face two limitations: (1) reliance on situation-centric datasets lacking persistent user identity, which hampers the capture of personalized affective nuances; and (2) dependence on opaque, coarse reward signals that hinder development of verifiable empathetic reasoning. To address these gaps, we introduce KardiaBench, a large-scale user-grounded benchmark comprising 178,080 QA pairs across 22,080 multi-turn conversations anchored to 671 real-world profiles. The dataset is constructed via a model-in-the-loop pipeline with iterative rubric-guided refinement to ensure psychological plausibility and persona consistency. This progressive empathy pipeline that integrates user comprehension, contextual reasoning, and emotion perception into conversations, followed by iterative critique and rubric-based refinement to ensure psychological plausibility, emotional fidelity, and persona consistency. Building on this, we propose Kardia-R1, a framework that trains models for interpretable, stepwise empathetic cognition. Kardia-R1 leverages Rubric-as-Judge Empathetic Reinforcement Learning (Rubric-ERL), a GRPO-based method that uses explainable, human-aligned rubric rewards to tightly couple user understanding, emotional inference, and supportive response generation. Extensive experiments across four LLM backbones demonstrate that Kardia-R1 consistently outperforms othet methods in emotion accuracy, empathy, relevance, persona consistency, and safety. Our dataset and model will be released at https://github.com/JhCircle/Kardia-R1.
- Abstract(参考訳): Webプラットフォームがよりパーソナライズされ、感情的な複雑さへと進化するにつれて、会話エージェントは、アイデンティティを意識した感情的推論を示すために、表面的な共感を超越する必要がある。
しかし,既存のシステムでは,(1)パーソナライズされた感情的ニュアンスの獲得を阻害する永続的なユーザアイデンティティを欠いた状況中心のデータセットへの依存,(2)不透明で粗い報酬信号への依存,という2つの制限に直面している。
これらのギャップに対処するために,22,080のマルチターン会話で178,080対のQAペアを671の現実世界プロファイルに固定した大規模ユーザグラウンドベンチマークであるKardiaBenchを紹介した。
データセットは、心理的妥当性とペルソナの一貫性を確保するために、反復的なルーリック誘導洗練されたループパイプラインによって構築される。
この進歩的共感パイプラインは、ユーザの理解、文脈的推論、感情の知覚を会話に統合し、次に反復的批評とルーリックに基づく洗練を行い、心理的妥当性、感情的忠実性、そしてペルソナの一貫性を確保する。
そこで我々は,解釈可能な,段階的な共感的認知のためのモデルを訓練するフレームワークであるKardia-R1を提案する。
Kardia-R1 は GRPO ベースの手法である Rubric-as-Judge Empathetic Reinforcement Learning (Rubric-ERL) を利用している。
LLMの4つのバックボーンにわたる大規模な実験により、カルディア-R1は感情の正確性、共感、関連性、ペルソナの一貫性、安全性において一貫してオセト法より優れていた。
私たちのデータセットとモデルはhttps://github.com/JhCircle/Kardia-R1.comでリリースされます。
関連論文リスト
- Empathy-R1: A Chain-of-Empathy and Reinforcement Learning Framework for Long-Form Mental Health Support [17.95060134327437]
強化学習(Reinforcement Learning, RL)とCoE(Chain-of-Empathy)推論プロセスを統合する新しいフレームワークであるEmpathy-R1を紹介する。
認知行動療法にインスパイアされた私たちのCoEパラダイムは、ヘルプ・シーカーの感情、原因、意図を逐次推論するためにモデルをガイドします。
我々のフレームワークは、新しい大規模な中国のデータセット、共感-QA、および2段階のトレーニングプロセスによって強化されています。
論文 参考訳(メタデータ) (2025-09-18T11:16:09Z) - MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems [17.381122321801556]
メタ認知の心理学理論に触発されたマルチエージェントフレームワークであるMetaMindを紹介する。
我々のフレームワークは3つの挑戦的なベンチマークで最先端のパフォーマンスを実現し、実世界の社会的シナリオは35.7%改善した。
この研究は、共感的対話や文化的に敏感な相互作用に応用して、人間のような社会知性に向けてAIシステムを前進させる。
論文 参考訳(メタデータ) (2025-05-25T02:32:57Z) - Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - APTNESS: Incorporating Appraisal Theory and Emotion Support Strategies for Empathetic Response Generation [71.26755736617478]
共感反応生成は、他人の感情を理解するように設計されている。
検索強化と感情支援戦略統合を組み合わせたフレームワークを開発する。
我々の枠組みは認知的・情緒的共感の両面からLLMの共感能力を高めることができる。
論文 参考訳(メタデータ) (2024-07-23T02:23:37Z) - CASE: Aligning Coarse-to-Fine Cognition and Affection for Empathetic
Response Generation [59.8935454665427]
共感的対話モデルは、通常、感情的な側面のみを考慮するか、孤立して認知と愛情を扱う。
共感的対話生成のためのCASEモデルを提案する。
論文 参考訳(メタデータ) (2022-08-18T14:28:38Z) - CEM: Commonsense-aware Empathetic Response Generation [31.956147246779423]
本稿では,ユーザ状況に関する情報を引き出すために,コモンセンスを利用した共感応答生成手法を提案する。
我々は,共感的応答生成のためのベンチマークデータセットである共感的ダイアログに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-09-13T06:55:14Z) - Exemplars-guided Empathetic Response Generation Controlled by the
Elements of Human Communication [88.52901763928045]
そこで本稿では, インターロケータへの共感を伝達する, 造形モデルによる細かな構造的特性の解明に先立って, 模範的手法を提案する。
これらの手法は, 自動評価指標と人的評価指標の両方の観点から, 共感的応答品質の大幅な改善をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2021-06-22T14:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。