論文の概要: Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction
- arxiv url: http://arxiv.org/abs/2511.00530v1
- Date: Sat, 01 Nov 2025 12:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.827122
- Title: Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction
- Title(参考訳): ユーザの行動軌跡予測のためのリストワイズ優先拡散最適化
- Authors: Hongtao Huang, Chengkai Huang, Junda Wu, Tong Yu, Julian McAuley, Lina Yao,
- Abstract要約: ユーザ行動軌跡予測(UBTP)を,長期ユーザの嗜好を明示的にモデル化するタスク設定として定式化する。
項目列全体に対して構造化された嗜好を直接最適化する拡散に基づくトレーニングフレームワークであるリスワイズ・ディフュージョン・最適化(LPDO)を導入する。
多段階の予測品質を厳密に評価するために、正確な軌跡合意を計測するタスク特異的な逐次マッチング(SeqMatch)を提案し、確率的忠実度を評価するパープレキシティ(PPL)を採用する。
- 参考スコア(独自算出の注目度): 41.53271688465831
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Forecasting multi-step user behavior trajectories requires reasoning over structured preferences across future actions, a challenge overlooked by traditional sequential recommendation. This problem is critical for applications such as personalized commerce and adaptive content delivery, where anticipating a user's complete action sequence enhances both satisfaction and business outcomes. We identify an essential limitation of existing paradigms: their inability to capture global, listwise dependencies among sequence items. To address this, we formulate User Behavior Trajectory Prediction (UBTP) as a new task setting that explicitly models long-term user preferences. We introduce Listwise Preference Diffusion Optimization (LPDO), a diffusion-based training framework that directly optimizes structured preferences over entire item sequences. LPDO incorporates a Plackett-Luce supervision signal and derives a tight variational lower bound aligned with listwise ranking likelihoods, enabling coherent preference generation across denoising steps and overcoming the independent-token assumption of prior diffusion methods. To rigorously evaluate multi-step prediction quality, we propose the task-specific metric Sequential Match (SeqMatch), which measures exact trajectory agreement, and adopt Perplexity (PPL), which assesses probabilistic fidelity. Extensive experiments on real-world user behavior benchmarks demonstrate that LPDO consistently outperforms state-of-the-art baselines, establishing a new benchmark for structured preference learning with diffusion models.
- Abstract(参考訳): 多段階のユーザ行動軌跡を予測するには、従来のシーケンシャルなレコメンデーションによって見過ごされる課題である、将来のアクション全体にわたる構造化された嗜好を推論する必要がある。
この問題は、パーソナライズされたコマースやアダプティブなコンテンツ配信といったアプリケーションにおいて重要であり、ユーザの完全なアクションシーケンスを期待することで満足度とビジネス成果が向上する。
既存のパラダイムには,シーケンス項目間のグローバルかつリストワイズな依存関係をキャプチャできない,という重要な制限がある。
これを解決するために、ユーザ行動軌跡予測(UBTP)を、長期ユーザの嗜好を明示的にモデル化する新しいタスク設定として定式化する。
項目列全体に対して構造化された嗜好を直接最適化する拡散に基づくトレーニングフレームワークであるリスワイズ・ディフュージョン・最適化(LPDO)を導入する。
LPDOは、Planet-Luce監視信号を導入し、リストワイドなランクの確率に整合した厳密な変動的な下界を導出し、デノナイズステップをまたいだコヒーレントな選好生成を可能にし、事前拡散法の独立した仮定を克服する。
多段階の予測品質を厳密に評価するために、正確な軌跡合意を計測するタスク特異的な逐次マッチング(SeqMatch)を提案し、確率的忠実度を評価するパープレキシティ(PPL)を採用する。
実世界のユーザ行動ベンチマークに関する大規模な実験により、LPDOは最先端のベースラインを一貫して上回り、拡散モデルによる構造化された嗜好学習のための新しいベンチマークを確立した。
関連論文リスト
- POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。
これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。
4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文 参考訳(メタデータ) (2025-10-17T23:07:57Z) - Preference Trajectory Modeling via Flow Matching for Sequential Recommendation [50.077447974294586]
シーケンスレコメンデーションは、履歴的なインタラクションシーケンスに基づいて、各ユーザの次の項目を予測する。
FlowRecはシンプルだが効果的なシーケンシャルレコメンデーションフレームワークである。
我々は,ガウス雑音に代えてパーソナライズされた行動に基づく事前分布を構築し,ユーザの嗜好軌跡をモデル化するためのベクトル場を学習する。
論文 参考訳(メタデータ) (2025-08-25T02:55:42Z) - Conformal Information Pursuit for Interactively Guiding Large Language Models [64.39770942422288]
本稿では,クエリ数の最小化を目的としたシーケンシャルクエリ戦略について検討する。
そのような戦略の1つは情報探索(IP)であり、各反復で情報ゲインを最大化または同等に不確実性を最小化するクエリを選択する。
本稿では,コンフォーマル情報探索法(C-IP)を提案する。
論文 参考訳(メタデータ) (2025-07-04T03:55:39Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Causality-Enhanced Behavior Sequence Modeling in LLMs for Personalized Recommendation [47.29682938439268]
本稿では,ユーザ嗜好モデルを改善するために,CFT法を提案する。
モデル出力に対する行動系列の因果的影響を特定するために, 反ファクト推論を用いる。
実世界のデータセットの実験により、CFTは行動シーケンスモデリングを効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-10-30T08:41:13Z) - Sequence Adaptation via Reinforcement Learning in Recommender Systems [8.909115457491522]
そこで我々は,SARモデルを提案する。SARモデルは,ユーザとイテムの相互作用のシーケンス長をパーソナライズされた方法で調整する。
さらに,逐次レコメンデーションの精度を批評家ネットワークの予測累積報酬と整合させるために,共同損失関数を最適化する。
実世界の4つのデータセットに対する実験的な評価は,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-31T13:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。