論文の概要: Minority-Aware Satisfaction Estimation in Dialogue Systems via Preference-Adaptive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.05407v1
- Date: Fri, 07 Nov 2025 16:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.840656
- Title: Minority-Aware Satisfaction Estimation in Dialogue Systems via Preference-Adaptive Reinforcement Learning
- Title(参考訳): 優先適応強化学習による対話システムにおけるマイノリティを考慮した満足度推定
- Authors: Yahui Fu, Zi Haur Pang, Tatsuya Kawahara,
- Abstract要約: ユーザ満足度推定のための個人レベルの好みとグループレベルの好みの両方をモデル化する統合フレームワークを提案する。
Emotional Support Conversationデータセットの実験では、ユーザ満足度推定における一貫した改善が示されている。
- 参考スコア(独自算出の注目度): 19.994184617064395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User satisfaction in dialogue systems is inherently subjective. When the same response strategy is applied across users, minority users may assign different satisfaction ratings than majority users due to variations in individual intents and preferences. However, existing alignment methods typically train one-size-fits-all models that aim for broad consensus, often overlooking minority perspectives and user-specific adaptation. We propose a unified framework that models both individual- and group-level preferences for user satisfaction estimation. First, we introduce Chain-of-Personalized-Reasoning (CoPeR) to capture individual preferences through interpretable reasoning chains. Second, we propose an expectation-maximization-based Majority-Minority Preference-Aware Clustering (M2PC) algorithm that discovers distinct user groups in an unsupervised manner to learn group-level preferences. Finally, we integrate these components into a preference-adaptive reinforcement learning framework (PAda-PPO) that jointly optimizes alignment with both individual and group preferences. Experiments on the Emotional Support Conversation dataset demonstrate consistent improvements in user satisfaction estimation, particularly for underrepresented user groups.
- Abstract(参考訳): 対話システムにおけるユーザ満足度は本質的に主観的です。
同じ反応戦略がユーザ間で適用された場合、マイノリティユーザは、個々の意図や嗜好の変化により、多数ユーザとは異なる満足度レーティングを割り当てることができる。
しかし、既存のアライメント手法は、広範にコンセンサスをめざして、少数派視点やユーザ固有の適応性を見越して、一大のモデルを訓練するのが一般的である。
ユーザ満足度推定のための個人レベルの好みとグループレベルの好みの両方をモデル化する統合フレームワークを提案する。
まず、解釈可能な推論連鎖を通して個人の好みを捉えるために、CoPeR(Chain-of-Personalized-Reasoning)を導入する。
次に,予測最大化に基づくMajority-Minority Preference-Aware Clustering (M2PC)アルゴリズムを提案する。
最後に、これらのコンポーネントを、個人とグループの両方の嗜好との整合性を共同で最適化する、嗜好適応型強化学習フレームワーク(PAda-PPO)に統合する。
Emotional Support Conversationデータセットの実験は、ユーザー満足度の推定における一貫した改善を実証している。
関連論文リスト
- Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - Personalized Recommendations via Active Utility-based Pairwise Sampling [1.704905100460915]
単純かつ直感的なペアワイズ比較から好みを学習するユーティリティベースのフレームワークを提案する。
本研究の中心的な貢献は,嗜好評価のための新規なユーティリティベースアクティブサンプリング戦略である。
論文 参考訳(メタデータ) (2025-08-12T19:09:33Z) - LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。
提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文 参考訳(メタデータ) (2025-04-20T01:16:24Z) - From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment [41.96246165999026]
大規模言語モデル(LLM)は、伝統的にワンサイズフィットのアプローチによって整列されてきた。
本稿では,LLMのスケーラブルなパーソナライズのための包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T17:41:46Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。
我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。
少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T23:58:19Z) - Overcoming Data Sparsity in Group Recommendation [52.00998276970403]
グループレコメンデータシステムは、ユーザの個人的な好みだけでなく、嗜好集約戦略も正確に学習できなければならない。
本稿では,BGEM(Bipartite Graphding Model)とGCN(Graph Convolutional Networks)を基本構造として,グループとユーザ表現を統一的に学習する。
論文 参考訳(メタデータ) (2020-10-02T07:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。