論文の概要: Towards Human-like Preference Profiling in Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2506.02261v1
- Date: Mon, 02 Jun 2025 21:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.083885
- Title: Towards Human-like Preference Profiling in Sequential Recommendation
- Title(参考訳): シークエンシャルレコメンデーションにおける人間的嗜好のプロファイリングに向けて
- Authors: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi,
- Abstract要約: RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
- 参考スコア(独自算出の注目度): 42.100841285901474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
- Abstract(参考訳): 逐次レコメンデーションシステムは、インタラクション履歴を解釈し、経験、相対的嗜好強さ、状況関連性によって人間がどのように意思決定するかを反映することによって、ユーザをプロファイルすることを目指している。
しかし、既存の大規模言語モデル(LLM)ベースの推奨者は、人間が提示する柔軟でコンテキスト対応の意思決定戦略を模倣するに足りず、人間の行動の基本となる構造的、動的、コンテキスト対応のメカニズムを無視していることが多い。
このギャップを埋めるために、構造化されたフィードバックとコンテキスト遅延をモデル化し、逐次レコメンデーションで人間のような優先順位付けをエミュレートする選好最適化フレームワークであるRecPOを提案する。
実世界の5つのデータセットにわたる大規模な実験では、RecPOは最先端のベースラインよりもパフォーマンスが向上するだけでなく、タイムリーな満足度、一貫性のある嗜好の維持、シフトするコンテキスト下での認識の行使といった、人間の意思決定の重要な特徴を反映している。
関連論文リスト
- A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。
PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文 参考訳(メタデータ) (2025-02-06T18:09:00Z) - Aligning Language Models Using Follow-up Likelihood as Reward Signal [40.388526412214276]
そこで本稿では,好ましくない応答を区別するための報奨として,フォローアップ発話の可能性を提案する。
提案した報奨機構であるFollow-up Likelihood as Reward (FLR) は,大規模人やGPT-4アノテートデータに基づいてトレーニングされた強力な報奨モデルの性能と一致する。
論文 参考訳(メタデータ) (2024-09-20T23:47:25Z) - TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。
TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。
実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-31T05:37:01Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。