論文の概要: DecoupledESC: Enhancing Emotional Support Generation via Strategy-Response Decoupled Preference Optimization
- arxiv url: http://arxiv.org/abs/2505.16995v1
- Date: Thu, 22 May 2025 17:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.541241
- Title: DecoupledESC: Enhancing Emotional Support Generation via Strategy-Response Decoupled Preference Optimization
- Title(参考訳): DecoupledESC:Strategy-Response Decoupled Preference Optimizationによる感情支援生成の強化
- Authors: Chao Zhang, Xin Shi, Xueqiao Zhang, Yifan Zhu, Yi Yang, Yawei Luo,
- Abstract要約: 本稿では,Gross's Extended Process Model of Emotion Regulationにインスパイアされた非結合ESCフレームワークを提案する。
我々のフレームワークは、共同最適化のベースラインを上回り、優先バイアスを減らし、応答品質を向上させる。
- 参考スコア(独自算出の注目度): 35.50223358356217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Emotional Support Conversation (ESC) have improved emotional support generation by fine-tuning Large Language Models (LLMs) via Supervised Fine-Tuning (SFT). However, common psychological errors still persist. While Direct Preference Optimization (DPO) shows promise in reducing such errors through pairwise preference learning, its effectiveness in ESC tasks is limited by two key challenges: (1) Entangled data structure: Existing ESC data inherently entangles psychological strategies and response content, making it difficult to construct high-quality preference pairs; and (2) Optimization ambiguity: Applying vanilla DPO to such entangled pairwise data leads to ambiguous training objectives. To address these issues, we introduce Inferential Preference Mining (IPM) to construct high-quality preference data, forming the IPM-PrefDial dataset. Building upon this data, we propose a Decoupled ESC framework inspired by Gross's Extended Process Model of Emotion Regulation, which decomposes the ESC task into two sequential subtasks: strategy planning and empathic response generation. Each was trained via SFT and subsequently enhanced by DPO to align with the psychological preference. Extensive experiments demonstrate that our Decoupled ESC framework outperforms joint optimization baselines, reducing preference bias and improving response quality.
- Abstract(参考訳): 情緒的支援会話(ESC)の最近の進歩は、スーパーバイザード・ファイン・チューニング(SFT)を介して、微調整大言語モデル(LLM)による感情的サポート生成を改善している。
しかし、一般的な心理学的誤りは今も続いている。
直接選好最適化(DPO)は、ペアの選好学習によるエラーの低減を約束する一方で、ESCタスクにおける有効性は、(1) 絡み合ったデータ構造: 既存のESCデータは本質的に心理学的戦略と応答内容に絡み合い、高品質な選好ペアの構築が困難になる; (2) 最適化曖昧さ: バニラDPOを絡み合ったペアの選好データに適用することで、あいまいなトレーニング目標が達成される。
これらの問題に対処するために、IPM(Inferential Preference Mining)を導入し、高品質な嗜好データを構築し、IPM-PrefDialデータセットを作成する。
このデータに基づいて,GrossのExtensioned Process Model of Emotion RegulationにインスパイアされたデカップリングESCフレームワークを提案し,ESCタスクを2つの逐次サブタスクに分解する。
それぞれがSFTを介して訓練され、その後DPOによって精神的な嗜好に合わせて強化された。
大規模な実験により、Decoupled ESCフレームワークは、共同最適化のベースラインを上回り、優先バイアスを低減し、応答品質を向上させることが実証された。
関連論文リスト
- Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter [44.17098675825127]
そこで我々は,各対話における戦略選択の選好を最適化する新しいアプローチであるChain-of-Strategy Optimization (CSO)を提案する。
まずモンテカルロ木探索を用いて,ターンレベルの戦略応答対を持つ高品質な選好データセットであるESC-Proを構築した。
CSOを用いたESC-Proのトレーニングは、戦略精度とバイアス軽減の両方を改善し、LLMがより共感的で文脈的に適切な応答を生成できるようにする。
論文 参考訳(メタデータ) (2025-03-07T12:07:59Z) - PEO: Improving Bi-Factorial Preference Alignment with Post-Training Policy Extrapolation [5.347428263669927]
ポストトレーニング外挿最適化(PEO)は、二要素アライメントのための新しく効率的なフレームワークである。
PEOは3相パイプラインを利用して、1つのトレーニングパスで最適なポリシーのファミリーを生成する。
論文 参考訳(メタデータ) (2025-03-03T06:56:39Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。