論文の概要: RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation
- arxiv url: http://arxiv.org/abs/2602.08575v1
- Date: Mon, 09 Feb 2026 12:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.216072
- Title: RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation
- Title(参考訳): RankGR:レコメンデーションにおけるリストワイド直接選好最適化を用いたランク強化生成検索
- Authors: Kairui Fu, Changfa Wu, Kun Yuan, Binbin Cao, Dunxian Huang, Yuliang Yan, Junjun Zheng, Jianning Zhang, Silu Zhou, Jian Wu, Kun Kuang,
- Abstract要約: 提案するRangGRは、リストワイズ直接選好最適化をレコメンデーションに組み込んだジェネレーティブ検索手法である。
IAPでは、新しいリストワイズ直接選好最適化戦略をGRに組み込んで、階層的ユーザの選好をより包括的に理解する。
トレーニングとデプロイメントにおいていくつかの実践的な改善を実現し、最終的には毎秒1万近いリクエストを処理可能なリアルタイムシステムを実現しています。
- 参考スコア(独自算出の注目度): 36.297513746770456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative retrieval (GR) has emerged as a promising paradigm in recommendation systems by autoregressively decoding identifiers of target items. Despite its potential, current approaches typically rely on the next-token prediction schema, which treats each token of the next interacted items as the sole target. This narrow focus 1) limits their ability to capture the nuanced structure of user preferences, and 2) overlooks the deep interaction between decoded identifiers and user behavior sequences. In response to these challenges, we propose RankGR, a Rank-enhanced Generative Retrieval method that incorporates listwise direct preference optimization for recommendation. RankGR decomposes the retrieval process into two complementary stages: the Initial Assessment Phase (IAP) and the Refined Scoring Phase (RSP). In IAP, we incorporate a novel listwise direct preference optimization strategy into GR, thus facilitating a more comprehensive understanding of the hierarchical user preferences and more effective partial-order modeling. The RSP then refines the top-λ candidates generated by IAP with interactions towards input sequences using a lightweight scoring module, leading to more precise candidate evaluation. Both phases are jointly optimized under a unified GR model, ensuring consistency and efficiency. Additionally, we implement several practical improvements in training and deployment, ultimately achieving a real-time system capable of handling nearly ten thousand requests per second. Extensive offline performance on both research and industrial datasets, as well as the online gains on the "Guess You Like" section of Taobao, validate the effectiveness and scalability of RankGR.
- Abstract(参考訳): 生成検索(GR)は,対象項目の識別子を自己回帰的に復号化することによって,推薦システムにおいて有望なパラダイムとして浮上している。
その可能性にもかかわらず、現在のアプローチは通常、次の対話アイテムの各トークンを唯一のターゲットとして扱う、次のトークン予測スキーマに依存している。
この狭い焦点
1)ユーザの嗜好の微妙な構造を捉える能力を制限し、
2) 復号化識別子とユーザ行動シーケンスの深い相互作用を見落としている。
これらの課題に対応するために、我々はRangeGRを提案し、RangeGRはRange-enhanced Generative Retrieval法であり、リストワイズ直接選好最適化をレコメンデーションに組み入れている。
RankGRは、検索プロセスを、初期評価フェーズ(IAP)と精製スコーリングフェーズ(RSP)の2つの相補的な段階に分解する。
IAPでは、新しいリストワイズ直接選好最適化戦略をGRに組み込むことで、階層的ユーザ選好のより包括的な理解とより効果的な部分順序モデリングを容易にする。
RSPは、IAPが生成したトップλ候補を軽量スコアリングモジュールを用いて入力シーケンスへの相互作用によって洗練し、より正確な候補評価を行う。
両相は統一GRモデルの下で共同最適化され、一貫性と効率性を確保する。
さらに、トレーニングとデプロイメントにおいていくつかの実践的な改善を実施し、最終的には毎秒1万近いリクエストを処理可能なリアルタイムシステムを実現しています。
研究データセットと産業データセットの両方の大規模なオフラインパフォーマンス、およびTaobaoの"Guess You Like"セクションのオンラインゲインにより、RanGRの有効性とスケーラビリティが検証された。
関連論文リスト
- HiGR: Efficient Generative Slate Recommendation via Hierarchical Planning and Multi-Objective Preference Alignment [22.73838860623495]
HiGRは効率的な生成スレートレコメンデーションフレームワークであり、階層的計画とリストワイドな優先順位調整を統合している。
大規模な商用メディアプラットフォームの実験では、HiGRがオフライン評価とオンラインデプロイメントの両方で一貫した改善を実現しています。
論文 参考訳(メタデータ) (2025-12-31T11:16:24Z) - Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction [41.53271688465831]
ユーザ行動軌跡予測(UBTP)を,長期ユーザの嗜好を明示的にモデル化するタスク設定として定式化する。
項目列全体に対して構造化された嗜好を直接最適化する拡散に基づくトレーニングフレームワークであるリスワイズ・ディフュージョン・最適化(LPDO)を導入する。
多段階の予測品質を厳密に評価するために、正確な軌跡合意を計測するタスク特異的な逐次マッチング(SeqMatch)を提案し、確率的忠実度を評価するパープレキシティ(PPL)を採用する。
論文 参考訳(メタデータ) (2025-11-01T12:16:24Z) - Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning [70.6126069527741]
ConvRec-R1は会話レコメンデーションシステムのエンドツーエンドトレーニングのための2段階のフレームワークである。
ステージ1では,Remap-Reflect-Adjustパイプラインを用いた行動閉鎖データセットを構築した。
ステージ2では,グループ相対政策最適化の原則的拡張である Rank-GRPO を提案する。
論文 参考訳(メタデータ) (2025-10-23T02:56:00Z) - Embed Progressive Implicit Preference in Unified Space for Deep Collaborative Filtering [13.24227546548424]
GNOLR(Generalized Neural Ordinal Logistic Regression)は、ユーザエンゲージメントの構造的進行を捉えるために提案されている。
GNOLRは予測精度を高め、ユーザのエンゲージメントの進行を捉え、検索プロセスを単純化する。
10の実世界のデータセットでの実験では、GNOLRは効率と適応性において最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-27T08:43:35Z) - Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model [71.45491434257106]
Unified Generative Recommendation Framework (UniGRF)は、検索とランキングを単一の生成モデルに統合する新しいアプローチである。
ステージ間コラボレーションを強化するため、UniGRFはランキング駆動エンハンサーモジュールを導入した。
UniGRFは、ベンチマークデータセット上で既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-23T06:43:54Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment [9.99840965933561]
ケースドラーニングフレームワークを統一的な生成モデルで置き換えるOneRecを提案する。
1) ユーザの履歴行動シーケンスをエンコードし、ユーザが興味を持っているかもしれない動画を徐々にデコードするエンコーダ・デコーダ構造。
論文 参考訳(メタデータ) (2025-02-26T09:25:10Z) - Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator [60.07198935747619]
動的セマンティック・インデックス・パラダイムを採用した最初の生成型RSであるTTDS(Twin-Tower Dynamic Semantic Recommender)を提案する。
より具体的には、ツイン・トワー・セマンティック・トークン・ジェネレータをLLMベースのレコメンデータに統合する動的知識融合フレームワークを初めて提案する。
提案したTTDSレコメンデータは,平均19.41%のヒットレート,20.84%のNDCG測定値を実現している。
論文 参考訳(メタデータ) (2024-09-14T01:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。