論文の概要: Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation Agent
- arxiv url: http://arxiv.org/abs/2506.14302v1
- Date: Tue, 17 Jun 2025 08:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.393997
- Title: Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation Agent
- Title(参考訳): マルチターン会話推薦エージェントの予測確認選好最適化
- Authors: Xueyang Feng, Jingsen Zhang, Jiakai Tang, Wei Li, Guohao Cai, Xu Chen, Quanyu Dai, Yue Zhu, Zhenhua Dong,
- Abstract要約: 本稿では,新しいマルチターン優先最適化パラダイムECPOを提案する。
我々は,ECPOがCRAの相互作用能力を大幅に向上させ,既存のMTPO法よりも効率と有効性を両立させることを示す。
- 参考スコア(独自算出の注目度): 24.134616865308985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly propelled the development of Conversational Recommendation Agents (CRAs). However, these agents often generate short-sighted responses that fail to sustain user guidance and meet expectations. Although preference optimization has proven effective in aligning LLMs with user expectations, it remains costly and performs poorly in multi-turn dialogue. To address this challenge, we introduce a novel multi-turn preference optimization (MTPO) paradigm ECPO, which leverages Expectation Confirmation Theory to explicitly model the evolution of user satisfaction throughout multi-turn dialogues, uncovering the underlying causes of dissatisfaction. These causes can be utilized to support targeted optimization of unsatisfactory responses, thereby achieving turn-level preference optimization. ECPO ingeniously eliminates the significant sampling overhead of existing MTPO methods while ensuring the optimization process drives meaningful improvements. To support ECPO, we introduce an LLM-based user simulator, AILO, to simulate user feedback and perform expectation confirmation during conversational recommendations. Experimental results show that ECPO significantly enhances CRA's interaction capabilities, delivering notable improvements in both efficiency and effectiveness over existing MTPO methods.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の進歩により,会話推薦エージェント (CRA) の開発が著しく進展している。
しかし,これらのエージェントは,ユーザガイダンスの維持に失敗し,期待を満たさない短視応答を生成することが多い。
好みの最適化は、LLMとユーザの期待を一致させるのに有効であることが証明されているが、コストがかかり、マルチターン対話では性能が良くない。
この課題に対処するために,期待確認理論を利用した新しいマルチターン優先最適化(MTPO)パラダイムECPOを導入し,マルチターン対話を通してユーザ満足度の進化を明示的にモデル化し,不満の原因を明らかにする。
これらの原因は、不満足な応答のターゲット最適化をサポートし、ターンレベルの優先最適化を実現するために利用することができる。
ECPOは、既存のMTPOメソッドのかなりのサンプリングオーバーヘッドを巧みに排除し、最適化プロセスが有意義な改善をもたらすことを保証します。
ECPOをサポートするために,LLMベースのユーザシミュレータであるAILOを導入し,ユーザのフィードバックをシミュレートし,会話レコメンデーション中に期待確認を行う。
実験の結果,ECPOはCRAの相互作用能力を著しく向上し,既存のMTPO法よりも効率と有効性の両方に顕著な改善をもたらすことがわかった。
関連論文リスト
- ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning [14.034412856423529]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合性において,その単純さと計算効率に注目されている。
最近の進歩はDPOをマルチモーダルシナリオに拡張し、高いパフォーマンスを実現している。
従来のDPOは、細かなセグメントの正しさを考慮せずに、二分選好の最適化、報酬、全応答のペナルティ化に依存している。
本稿では、より正確な選好最適化のために個々の文を評価する適応文レベルの選好最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-05-25T11:33:08Z) - Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [66.54211199959298]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。
MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。
視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文 参考訳(メタデータ) (2025-05-20T03:59:05Z) - HF4Rec: Human-Like Feedback-Driven Optimization Framework for Explainable Recommendation [8.532115411106068]
提案する提案手法は,人為的なフィードバック駆動型最適化フレームワークである。
このフレームワークは、人中心で説明可能な要求を達成するために、高い労働コストを発生させることなく、動的にインタラクティブな最適化機構を使用する。
特に,大規模言語モデル(LLM)を人間のシミュレータとして利用して,学習プロセスの指針となる人間的なフィードバックを予測することを提案する。
論文 参考訳(メタデータ) (2025-04-19T02:46:10Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game [31.66896160733569]
そこで本稿では,より効率的な人選好最適化を目的としたAPO(Adversarial Preference Optimization)フレームワークを提案する。
提案手法は,LLMの有効性と無害性の観点から,既存のアライメントベースラインをさらに強化する。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。