論文の概要: Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.15434v1
- Date: Mon, 16 Mar 2026 15:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.549525
- Title: Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning
- Title(参考訳): Echoを聴く:Scalar-Verbalハイブリッド強化学習によるユーザ反応を考慮したポリシー最適化
- Authors: Jing Ye, Xinpei Zhao, Lu Xiang, Yaping Zhang, Chengqing Zong,
- Abstract要約: 感情支援システムのための反応認識ポリシー最適化(RAPO)を提案する。
RAPOは、対話を反応駆動プロセスとして扱い、シミュレーションされたユーザ応答を利用して、高密度な自然言語フィードバックを生成する。
RAPOは、肯定的な相互作用の結果の駆動において、強い強化学習ベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 42.070531160001785
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While current emotional support dialogue systems typically rely on expert-defined scalar rewards for alignment, these signals suffer from severe information sparsity. They cannot explain why a response failed or how to adapt to dynamic user states, often diverging from the actual goal of facilitating positive emotional shifts. In practice, the most direct and reliable learning signal emerges from the user's continuous reactions during ongoing interaction. We therefore propose Reaction Aware Policy Optimization (RAPO), a framework that optimizes over interaction consequences rather than rubric scores. RAPO treats dialogue as a reaction-driven process and utilizes simulated user responses to generate dense natural-language feedback through three core components: Hindsight Dialogue Selection, which isolates pivotal turns that meaningfully alter user emotional trajectories; Generative Hindsight Feedback, which transforms user reactions into contrastive ranking signals and natural-language critiques; and Scalar-Verbal Hybrid Policy Optimization, which couples scalar reward optimization for global alignment with verbal feedback distillation for fine-grained semantic refinement. Extensive experiments on ESC and Sotopia demonstrate that RAPO significantly outperforms strong reinforcement learning baselines in driving positive interaction outcomes.
- Abstract(参考訳): 現在の感情支援対話システムは、通常は専門家が定義したスカラー報酬をアライメントに頼っているが、これらの信号は深刻な情報空間に悩まされている。
反応が失敗した理由や、動的ユーザ状態への適応方法を説明することはできない。
実際、最も直接的で信頼性の高い学習信号は、進行中のインタラクション中にユーザの継続的な反応から現れる。
そこで我々は,反応認識ポリシー最適化(RAPO)を提案する。
RAPOは、対話を反応駆動のプロセスとして扱い、シミュレーションされたユーザ応答を利用して、3つの中核的なコンポーネントを通して、密集した自然言語フィードバックを生成する: 隠れ対話選択(Hindsight Dialogue Selection)、ユーザ反応を対照的なランキング信号や自然言語批判に変換する生成的隠れフィードバック(Generative Hindsight Feedback)、そしてスカラー-バーバルハイブリッドポリシー最適化(Scalar-Verbal Hybrid Policy Optimization)。
ESCとソトピアの大規模な実験により、RAPOは肯定的な相互作用の結果を駆動する上で、強い強化学習ベースラインを著しく上回っていることが示された。
関連論文リスト
- ReactMotion: Generating Reactive Listener Motions from Speaker Utterance [93.89117265072464]
話者発話からのリアクティブリスナー運動生成は、話者の発話に適切に反応する自然主義的リスナー身体運動を生成することを目的としている。
提案するReactMotionNetは、話者発話と複数の候補リスナーの動きを、適切な度合いでアノテートする大規模データセットである。
テキスト,音声,感情,動きを共同でモデル化する統合生成フレームワークであるReactMotionを提案する。
論文 参考訳(メタデータ) (2026-03-16T10:37:42Z) - Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning [66.52010873968383]
本稿では,RL学習を通じて学習した探索的,適応的な行動を可能にする,交互に探索と推論をインターリーブする対話エージェントを提案する。
広く使われている4つの対話型ベンチマークによる実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-19T14:55:54Z) - Reinforcement Learning from User Feedback [28.335218244885706]
本稿では,大規模言語モデルとユーザの好みを整合させるフレームワークであるReinforcement Learning from User Feedback (RLUF)を紹介する。
報奨モデル P[Love] をトレーニングし, LLM 応答がラブ反応を受ける可能性を予測する。
P[Love]は肯定的なフィードバックの増加を予測し,将来のユーザ行動の信頼性の高いオフライン評価手段として機能することを示す。
論文 参考訳(メタデータ) (2025-05-20T22:14:44Z) - Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:37:30Z) - Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。
ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。
実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文 参考訳(メタデータ) (2025-04-09T13:21:17Z) - Stop Playing the Guessing Game! Target-free User Simulation for Evaluating Conversational Recommender Systems [21.275452863162936]
PEPPERは、実際のユーザインタラクション履歴とレビューから構築された、ターゲットフリーなユーザシミュレータによる評価プロトコルである。
PEPPERは、単純な推測ゲームに陥ることなく、現実的なユーザ-CRS対話を可能にする。
PEPPERは、CRSの嗜好誘発能力を包括的に評価するための詳細な尺度を提示する。
論文 参考訳(メタデータ) (2024-11-25T07:36:20Z) - Towards Empathetic Conversational Recommender Systems [77.53167131692]
本稿では,共感型会話レコメンデータ(ECR)フレームワークを提案する。
ECRには、感情対応アイテムレコメンデーションと感情対応応答生成という、2つの主要なモジュールが含まれている。
ReDialデータセットの実験は、推奨精度を高め、ユーザの満足度を向上させる上で、我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-08-30T15:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。