論文の概要: Towards Human-like Preference Profiling in Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2506.02261v1
- Date: Mon, 02 Jun 2025 21:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.083885
- Title: Towards Human-like Preference Profiling in Sequential Recommendation
- Title(参考訳): シークエンシャルレコメンデーションにおける人間的嗜好のプロファイリングに向けて
- Authors: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi,
- Abstract要約: RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
- 参考スコア(独自算出の注目度): 42.100841285901474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
- Abstract(参考訳): 逐次レコメンデーションシステムは、インタラクション履歴を解釈し、経験、相対的嗜好強さ、状況関連性によって人間がどのように意思決定するかを反映することによって、ユーザをプロファイルすることを目指している。
しかし、既存の大規模言語モデル(LLM)ベースの推奨者は、人間が提示する柔軟でコンテキスト対応の意思決定戦略を模倣するに足りず、人間の行動の基本となる構造的、動的、コンテキスト対応のメカニズムを無視していることが多い。
このギャップを埋めるために、構造化されたフィードバックとコンテキスト遅延をモデル化し、逐次レコメンデーションで人間のような優先順位付けをエミュレートする選好最適化フレームワークであるRecPOを提案する。
実世界の5つのデータセットにわたる大規模な実験では、RecPOは最先端のベースラインよりもパフォーマンスが向上するだけでなく、タイムリーな満足度、一貫性のある嗜好の維持、シフトするコンテキスト下での認識の行使といった、人間の意思決定の重要な特徴を反映している。
関連論文リスト
- Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Integrating Response Time and Attention Duration in Bayesian Preference Learning for Multiple Criteria Decision Aiding [2.9457161327910693]
本稿では,意思決定支援のための行動規範を取り入れたベイズ選好学習フレームワークについて紹介する。
このフレームワークは、ペアワイズ比較、応答時間、注意期間を統合して、意思決定プロセスに関する洞察を深めます。
論文 参考訳(メタデータ) (2025-04-21T08:01:44Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。
PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文 参考訳(メタデータ) (2025-02-06T18:09:00Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - Recommendation and Temptation [3.734925590025741]
エンリッチメントと誘惑の緊張を明示的にモデル化する新しいレコメンデーション設計を提案する。
私たちの仕事は、よりニュアンスでユーザ中心の推奨設計へのパラダイムシフトを表しています。
論文 参考訳(メタデータ) (2024-12-13T22:44:22Z) - Aligning Language Models Using Follow-up Likelihood as Reward Signal [40.388526412214276]
そこで本稿では,好ましくない応答を区別するための報奨として,フォローアップ発話の可能性を提案する。
提案した報奨機構であるFollow-up Likelihood as Reward (FLR) は,大規模人やGPT-4アノテートデータに基づいてトレーニングされた強力な報奨モデルの性能と一致する。
論文 参考訳(メタデータ) (2024-09-20T23:47:25Z) - TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。
TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。
実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-31T05:37:01Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。