論文の概要: Mitigating Strategy Preference Bias in Emotional Support Conversation via Uncertainty Estimations
- arxiv url: http://arxiv.org/abs/2509.12661v1
- Date: Tue, 16 Sep 2025 04:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.883051
- Title: Mitigating Strategy Preference Bias in Emotional Support Conversation via Uncertainty Estimations
- Title(参考訳): 不確実性推定による感情支援会話における戦略選好バイアスの緩和
- Authors: Yougen Zhou, Qin Chen, Ningning Zhou, Jie Zhou, Xingjiao Wu, Liang He,
- Abstract要約: 情緒的支援会話(ESC)は共感的対話を通じて苦悩を和らげることを目的としている。
LLMは戦略計画の精度が低いため、効率的なESCを提供する上で永続的な課題に直面している。
本稿では,2重報酬関数を用いた強化学習によるバイアス軽減手法を提案する。
- 参考スコア(独自算出の注目度): 21.035567919734934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional support conversation (ESC) aims to alleviate distress through empathetic dialogue, yet large language models (LLMs) face persistent challenges in delivering effective ESC due to low accuracy in strategy planning. Moreover, there is a considerable preference bias towards specific strategies. Prior methods using fine-tuned strategy planners have shown potential in reducing such bias, while the underlying causes of the preference bias in LLMs have not well been studied. To address these issues, we first reveal the fundamental causes of the bias by identifying the knowledge boundaries of LLMs in strategy planning. Then, we propose an approach to mitigate the bias by reinforcement learning with a dual reward function, which optimizes strategy planning via both accuracy and entropy-based confidence for each region according to the knowledge boundaries. Experiments on the ESCov and ExTES datasets with multiple LLM backbones show that our approach outperforms the baselines, confirming the effectiveness of our approach.
- Abstract(参考訳): Emotional Support conversation (ESC) は、共感的対話を通じて苦悩を和らげることを目的としているが、大きな言語モデル(LLM)は、戦略計画の精度が低いため、効果的なESCを提供する上で永続的な課題に直面している。
さらに、特定の戦略にはかなりの優先バイアスがある。
微調整戦略プランナーを用いた以前の手法は、そのようなバイアスを減らす可能性を示しているが、LLMの嗜好バイアスの根本原因は研究されていない。
これらの問題に対処するために,我々はまず,戦略計画におけるLSMの知識境界を特定することにより,バイアスの根本的な原因を明らかにする。
次に,2つの報酬関数を用いた強化学習によるバイアス軽減手法を提案し,知識境界に従って各領域の精度とエントロピーに基づく信頼度を用いて戦略計画の最適化を行う。
複数のLCMバックボーンを用いたESCovとExTESデータセットの実験により、我々のアプローチはベースラインよりも優れており、我々のアプローチの有効性が確認されている。
関連論文リスト
- Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - Strategy-Augmented Planning for Large Language Models via Opponent Exploitation [11.840105106884543]
LLMエージェントの攻撃的利用能力を大幅に向上させる2段階戦略拡張計画(SAP)フレームワークを提案する。
オフラインの段階では、明示的な戦略空間を構築し、その後戦略評価ネットワーク(SEN)をトレーニングするための戦略アウトカムペアデータを収集する。
オンラインフェーズでは、SAPは相手の戦略を動的に認識し、よく訓練されたSEN上で最良のレスポンス戦略を探索することにより、それらを強引に活用する。
論文 参考訳(メタデータ) (2025-05-13T11:41:10Z) - Cognitive Debiasing Large Language Models for Decision-Making [71.2409973056137]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
我々の手法は、3つの逐次的なステップ – バイアス決定、バイアス分析、認知バイアス ― に従うことで、プロンプトにおける潜在的な認知バイアスを反復的に緩和する。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models [14.057527352653787]
本稿では,適応的な知識選択を実現することを目的とした,知識認識型参照最適化戦略であるKnowPOを提案する。
KnowPOは,従来の知識衝突処理手法を37%以上上回る性能を示した。
論文 参考訳(メタデータ) (2024-08-06T16:55:54Z) - Prompting Fairness: Integrating Causality to Debias Large Language Models [19.76215433424235]
大規模言語モデル(LLM)は偏見や差別的な反応を生じさせる可能性がある。
社会的偏見に対処するための因果性誘導型脱バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。