論文の概要: Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter
- arxiv url: http://arxiv.org/abs/2503.05362v1
- Date: Fri, 07 Mar 2025 12:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:17.816070
- Title: Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter
- Title(参考訳): 戦略最適化の連鎖は、大きな言語モデルを感情支援者より良くする
- Authors: Weixiang Zhao, Xingyu Sui, Xinyang Han, Yang Deng, Yulin Hu, Jiahe Guo, Libo Qin, Qianyun Du, Shijin Wang, Yanyan Zhao, Bing Qin, Ting Liu,
- Abstract要約: そこで我々は,各対話における戦略選択の選好を最適化する新しいアプローチであるChain-of-Strategy Optimization (CSO)を提案する。
まずモンテカルロ木探索を用いて,ターンレベルの戦略応答対を持つ高品質な選好データセットであるESC-Proを構築した。
CSOを用いたESC-Proのトレーニングは、戦略精度とバイアス軽減の両方を改善し、LLMがより共感的で文脈的に適切な応答を生成できるようにする。
- 参考スコア(独自算出の注目度): 44.17098675825127
- License:
- Abstract: The growing emotional stress in modern society has increased the demand for Emotional Support Conversations (ESC). While Large Language Models (LLMs) show promise for ESC, they face two key challenges: (1) low strategy selection accuracy, and (2) preference bias, limiting their adaptability to emotional needs of users. Existing supervised fine-tuning (SFT) struggles to address these issues, as it rigidly trains models on single gold-standard responses without modeling nuanced strategy trade-offs. To overcome these limitations, we propose Chain-of-Strategy Optimization (CSO), a novel approach that optimizes strategy selection preferences at each dialogue turn. We first leverage Monte Carlo Tree Search to construct ESC-Pro, a high-quality preference dataset with turn-level strategy-response pairs. Training on ESC-Pro with CSO improves both strategy accuracy and bias mitigation, enabling LLMs to generate more empathetic and contextually appropriate responses. Experiments on LLaMA-3.1-8B, Gemma-2-9B, and Qwen2.5-7B demonstrate that CSO outperforms standard SFT, highlighting the efficacy of fine-grained, turn-level preference modeling in ESC.
- Abstract(参考訳): 現代社会における感情的ストレスの増加は、感情的支援会話(ESC)の需要を増大させている。
大規模言語モデル (LLM) はESCを約束する一方で,(1) 戦略選択の精度の低下,(2) ユーザの感情的ニーズへの適応性を制限する優先バイアスという2つの大きな課題に直面している。
既存の教師付き微調整(SFT)は、ニュアンスド戦略のトレードオフをモデル化することなく、単一のゴールド標準応答のモデルを厳格に訓練するため、これらの問題を解決するのに苦労している。
これらの制限を克服するために,各対話における戦略選択の選好を最適化する新しいアプローチであるChain-of-Strategy Optimization (CSO)を提案する。
まずモンテカルロ木探索を用いて,ターンレベルの戦略応答対を持つ高品質な選好データセットであるESC-Proを構築した。
CSOを用いたESC-Proのトレーニングは、戦略精度とバイアス軽減の両方を改善し、LLMがより共感的で文脈的に適切な応答を生成できるようにする。
LLaMA-3.1-8B、Gemma-2-9B、Qwen2.5-7Bの実験では、CSOは標準SFTよりも優れており、ESCの微細なターンレベルの嗜好モデリングの有効性を強調している。
関連論文リスト
- EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - A Unified Approach to Routing and Cascading for LLMs [5.653106385738822]
様々なエージェントシステムに埋め込まれた大規模言語モデル(LLM)は、コストパフォーマンスのトレードオフを改善するためのモデル選択戦略の可能性を高めている。
既存の戦略には、クエリ毎にひとつのモデルが選択されるルーティング、あるいは、満足のいく回答が見つかるまで順次、より大きなモデルを実行するカスケードがある。
我々は、カスケードのための新しい最適戦略を導き、既存のルーティング戦略の最適性を証明する。
本稿では、ルーティングとカスケードを統合した統合フレームワークであるカスケードルーティングを理論的に最適な戦略として提案する。
論文 参考訳(メタデータ) (2024-10-14T10:00:49Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - EmoDynamiX: Emotional Support Dialogue Strategy Prediction by Modelling MiXed Emotions and Discourse Dynamics [12.105216351739422]
EmoDynamiXは、ユーザの微粒な感情と、不均一なグラフを使用してシステム戦略の間の談話ダイナミクスをモデル化し、パフォーマンスと透明性を改善します。
2つのESCデータセットの実験結果から、EmoDynamiXは従来の最先端の手法よりも優れたマージンを持つことが示された。
論文 参考訳(メタデータ) (2024-08-16T14:54:41Z) - ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models [55.301188787490545]
Emotion Support Conversation (ESC)は、人間のストレスを減らし、感情的なガイダンスを提供し、人間の精神的および身体的幸福を高めることを目的としている。
ロールプレイングエージェントを用いてESCモデルと対話するESC評価フレームワーク(ESC-Eval)を提案する。
異なるESCモデルの対話型マルチターン対話において、包括的なヒューマンアノテーションを行う。
論文 参考訳(メタデータ) (2024-06-21T08:03:33Z) - iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers [11.819814280565142]
本稿では,SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Senseについて述べる。
BRAINTEASERタスクは、モデルの側方思考能力を評価するために設計された複数の選択質問回答を含む。
両サブタスクにおける事前学習言語モデルの性能向上のためのユニークな戦略を提案する。
論文 参考訳(メタデータ) (2024-05-25T08:50:51Z) - RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文 参考訳(メタデータ) (2024-04-12T05:02:49Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - Improving Multi-turn Emotional Support Dialogue Generation with
Lookahead Strategy Planning [81.79431311952656]
感情支援のための新しいシステムMultiESCを提案する。
戦略プランニングでは,特定の戦略を使用した後のユーザフィードバックを見積もるルックアヘッドを提案する。
ユーザ状態モデリングにおいて、MultiESCはユーザーの微妙な感情表現を捉え、感情の原因を理解することに重点を置いている。
論文 参考訳(メタデータ) (2022-10-09T12:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。