論文の概要: Mitigating Strategy Preference Bias in Emotional Support Conversation via Uncertainty Estimations
- arxiv url: http://arxiv.org/abs/2509.12661v1
- Date: Tue, 16 Sep 2025 04:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.883051
- Title: Mitigating Strategy Preference Bias in Emotional Support Conversation via Uncertainty Estimations
- Title(参考訳): 不確実性推定による感情支援会話における戦略選好バイアスの緩和
- Authors: Yougen Zhou, Qin Chen, Ningning Zhou, Jie Zhou, Xingjiao Wu, Liang He,
- Abstract要約: 情緒的支援会話(ESC)は共感的対話を通じて苦悩を和らげることを目的としている。
LLMは戦略計画の精度が低いため、効率的なESCを提供する上で永続的な課題に直面している。
本稿では,2重報酬関数を用いた強化学習によるバイアス軽減手法を提案する。
- 参考スコア(独自算出の注目度): 21.035567919734934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional support conversation (ESC) aims to alleviate distress through empathetic dialogue, yet large language models (LLMs) face persistent challenges in delivering effective ESC due to low accuracy in strategy planning. Moreover, there is a considerable preference bias towards specific strategies. Prior methods using fine-tuned strategy planners have shown potential in reducing such bias, while the underlying causes of the preference bias in LLMs have not well been studied. To address these issues, we first reveal the fundamental causes of the bias by identifying the knowledge boundaries of LLMs in strategy planning. Then, we propose an approach to mitigate the bias by reinforcement learning with a dual reward function, which optimizes strategy planning via both accuracy and entropy-based confidence for each region according to the knowledge boundaries. Experiments on the ESCov and ExTES datasets with multiple LLM backbones show that our approach outperforms the baselines, confirming the effectiveness of our approach.
- Abstract(参考訳): Emotional Support conversation (ESC) は、共感的対話を通じて苦悩を和らげることを目的としているが、大きな言語モデル(LLM)は、戦略計画の精度が低いため、効果的なESCを提供する上で永続的な課題に直面している。
さらに、特定の戦略にはかなりの優先バイアスがある。
微調整戦略プランナーを用いた以前の手法は、そのようなバイアスを減らす可能性を示しているが、LLMの嗜好バイアスの根本原因は研究されていない。
これらの問題に対処するために,我々はまず,戦略計画におけるLSMの知識境界を特定することにより,バイアスの根本的な原因を明らかにする。
次に,2つの報酬関数を用いた強化学習によるバイアス軽減手法を提案し,知識境界に従って各領域の精度とエントロピーに基づく信頼度を用いて戦略計画の最適化を行う。
複数のLCMバックボーンを用いたESCovとExTESデータセットの実験により、我々のアプローチはベースラインよりも優れており、我々のアプローチの有効性が確認されている。
関連論文リスト
- Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts [63.412646471177645]
会話レコメンダシステム(CRS)のための新しい強化戦略最適化(RSO)手法を提案する。
RSOは、戦略駆動型応答決定をマクロレベルの戦略計画とマイクロレベルの戦略適応に分解する。
実験の結果, RSOは最先端のベースラインと比較して, インタラクション性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-09-30T11:12:01Z) - Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs [49.995906301946]
既存の手法は通常、数学的推論を行うためにLLM(Large Language Models)をガイドするための固定戦略を利用する。
分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。
本稿では,PRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:22:41Z) - Mitigating Strategy-Selection Bias in Reasoning for More Effective Test-Time Scaling [27.616118519120366]
テストタイムスケーリング(TTS)は,多種多様な推論経路をサンプリング・集約することにより,大規模言語モデル(LLM)の性能を向上させることが示されている。
本稿では,テスト時間スケーリングの有効性を損なう場合の理論的解析について述べる。
この理論的な洞察に触発され、推論戦略の選択バイアスを軽減するために設計されたフレームワークであるTS-Uniformを導入する。
論文 参考訳(メタデータ) (2025-09-22T15:30:56Z) - Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - Strategy-Augmented Planning for Large Language Models via Opponent Exploitation [11.840105106884543]
LLMエージェントの攻撃的利用能力を大幅に向上させる2段階戦略拡張計画(SAP)フレームワークを提案する。
オフラインの段階では、明示的な戦略空間を構築し、その後戦略評価ネットワーク(SEN)をトレーニングするための戦略アウトカムペアデータを収集する。
オンラインフェーズでは、SAPは相手の戦略を動的に認識し、よく訓練されたSEN上で最良のレスポンス戦略を探索することにより、それらを強引に活用する。
論文 参考訳(メタデータ) (2025-05-13T11:41:10Z) - Cognitive Debiasing Large Language Models for Decision-Making [71.2409973056137]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
我々の手法は、3つの逐次的なステップ – バイアス決定、バイアス分析、認知バイアス ― に従うことで、プロンプトにおける潜在的な認知バイアスを反復的に緩和する。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter [71.17800993332175]
そこで我々は,各対話における戦略選択の選好を最適化する新しいアプローチであるChain-of-Strategy Optimization (CSO)を提案する。
まずモンテカルロ木探索を用いて,ターンレベルの戦略応答対を持つ高品質な選好データセットであるESC-Proを構築した。
CSOを用いたESC-Proのトレーニングは、戦略精度とバイアス軽減の両方を改善し、LLMがより共感的で文脈的に適切な応答を生成できるようにする。
論文 参考訳(メタデータ) (2025-03-07T12:07:59Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models [14.057527352653787]
本稿では,適応的な知識選択を実現することを目的とした,知識認識型参照最適化戦略であるKnowPOを提案する。
KnowPOは,従来の知識衝突処理手法を37%以上上回る性能を示した。
論文 参考訳(メタデータ) (2024-08-06T16:55:54Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Prompting Fairness: Integrating Causality to Debias Large Language Models [19.76215433424235]
大規模言語モデル(LLM)は偏見や差別的な反応を生じさせる可能性がある。
社会的偏見に対処するための因果性誘導型脱バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。