論文の概要: From Generic Empathy to Personalized Emotional Support: A Self-Evolution Framework for User Preference Alignment
- arxiv url: http://arxiv.org/abs/2505.16610v1
- Date: Thu, 22 May 2025 12:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.287731
- Title: From Generic Empathy to Personalized Emotional Support: A Self-Evolution Framework for User Preference Alignment
- Title(参考訳): ジェネリック・共感からパーソナライズされた感情支援へ:ユーザー嗜好アライメントのための自己進化フレームワーク
- Authors: Jing Ye, Lu Xiang, Yaping Zhang, Chengqing Zong,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザ固有のニーズに対応できない汎用的かつワンサイズ対応の応答を提供する。
ユーザの暗黙の好みに合うようにLCMの応答を改善するための自己進化フレームワークを提案する。
本手法は,感情支援におけるモデルの性能を著しく向上させ,不愉快な応答を低減し,ユーザの嗜好とモデル出力の相違を最小化する。
- 参考スコア(独自算出の注目度): 27.301608019492043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective emotional support hinges on understanding users' emotions and needs to provide meaningful comfort during multi-turn interactions. Large Language Models (LLMs) show great potential for expressing empathy; however, they often deliver generic and one-size-fits-all responses that fail to address users' specific needs. To tackle this issue, we propose a self-evolution framework designed to help LLMs improve their responses to better align with users' implicit preferences concerning user profiles (personalities), emotional states, and specific situations. Our framework consists of two distinct phases: \textit{(1)} \textit{Emotional Support Experience Acquisition}, where LLMs are fine-tuned on limited emotional support conversation data to provide basic support, and \textit{(2)} \textit{Self-Improvement for Personalized Emotional Support}, where LLMs leverage self-reflection and self-refinement to generate personalized responses. Through iterative direct preference optimization between the pre- and post-refined responses, our model generates responses that reflect a better understanding of the user's implicit preferences. Extensive experiments and evaluations demonstrate that our method significantly enhances the model's performance in emotional support, reducing unhelpful responses and minimizing discrepancies between user preferences and model outputs.
- Abstract(参考訳): 効果的な感情支援は、ユーザの感情を理解することに集中し、マルチターンインタラクション中に意味のある快適さを提供する必要がある。
大規模な言語モデル(LLM)は共感を表現する大きな可能性を秘めている。
この問題に対処するために,LLM がユーザプロファイル(個人性),感情状態,特定の状況に関するユーザの暗黙の嗜好に合うように,回答を改善するための自己進化フレームワークを提案する。
我々のフレームワークは2つの異なるフェーズから構成される: \textit{(1)} \textit{Emotional Support Experience Acquisition}; LLMは基本的なサポートを提供するための限られた感情的サポート会話データに基づいて微調整される。
本モデルでは,事前応答と修正後応答の反復的直接選好最適化により,ユーザの暗黙の選好をよりよく理解する応答を生成する。
実験と評価により,本手法は感情支援におけるモデルの性能を著しく向上させ,不愉快な応答を低減し,ユーザの嗜好とモデル出力の相違を最小化することを示した。
関連論文リスト
- FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Towards Empathetic Conversational Recommender Systems [77.53167131692]
本稿では,共感型会話レコメンデータ(ECR)フレームワークを提案する。
ECRには、感情対応アイテムレコメンデーションと感情対応応答生成という、2つの主要なモジュールが含まれている。
ReDialデータセットの実験は、推奨精度を高め、ユーザの満足度を向上させる上で、我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-08-30T15:43:07Z) - WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [36.06000681394939]
WildFeedbackは、大規模言語モデル(LLM)との会話中にユーザからのフィードバックをその場で活用して、好みのデータセットを自動的に作成する新しいフレームワークである。
実験の結果,WildFeedbackデータセットを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-08-28T05:53:46Z) - EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization [9.934277461349696]
共感反応生成は会話エージェントの望ましい側面である。
感情接地に基づく理論駆動の嗜好データセットを構築する新しい手法を提案する。
本研究では,LLMを一般性能を維持しつつ,好みの最適化により共感応答生成に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-06-27T10:41:22Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional
Support Conversation [64.37111498077866]
本稿では,感情支援会話のための新しいモデルを提案する。
ユーザの微妙な感情状態を推測し、その後、戦略の混合を使って巧みに応答する。
評価実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-25T10:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。