論文の概要: Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.20150v2
- Date: Fri, 24 Oct 2025 02:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 11:27:44.464674
- Title: Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning
- Title(参考訳): Rank-GRPO:強化学習によるLLMベースの会話レコメンダシステム
- Authors: Yaochen Zhu, Harald Steck, Dawen Liang, Yinhan He, Vito Ostuni, Jundong Li, Nathan Kallus,
- Abstract要約: ConvRec-R1は会話レコメンデーションシステムのエンドツーエンドトレーニングのための2段階のフレームワークである。
ステージ1では,Remap-Reflect-Adjustパイプラインを用いた行動閉鎖データセットを構築した。
ステージ2では,グループ相対政策最適化の原則的拡張である Rank-GRPO を提案する。
- 参考スコア(独自算出の注目度): 70.6126069527741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are reshaping the recommender system paradigm by enabling users to express preferences and receive recommendations through conversations. Yet, aligning LLMs to the recommendation task remains challenging: pretrained LLMs often generate out-of-catalog items, violate required output formats, and their ranking quality degrades sharply toward the end of the generated list. To this end, we propose ConvRec-R1, a two-stage framework for end-to-end training of LLM-based conversational recommender systems. In Stage 1, we construct a behavioral-cloning dataset with a Remap-Reflect-Adjust pipeline, which produces high-quality, catalog-grounded demonstrations from powerful blackbox LLMs to warm-start the RL training. In Stage 2, we propose Rank-GRPO, a principled extension of group relative policy optimization (GRPO) tailored to tasks with rank-style outputs. Rank-GRPO treats each rank in the recommendation list as the unit instead of token (too fine-grained) or sequence (too coarse), redefining rewards to remove non-causal credit assignment and introducing a rank-level importance ratio based on the geometric mean of rank-wise token probabilities to stabilize policy updates. Experiments on the public Reddit-v2 dataset show that ConvRec-R1 converges faster and achieves higher Recall and NDCG than GRPO-style baselines. Code and datasets are released at https://github.com/yaochenzhu/Rank-GRPO.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザが好みを表現したり、会話を通じてレコメンデーションを受けられるようにすることで、レコメンデーションシステムパラダイムを再構築している。
しかし、LLMをレコメンデーションタスクに合わせることは困難であり、事前訓練されたLLMは、しばしば触媒外アイテムを生成し、必要な出力フォーマットに違反し、それらのランキング品質は生成されたリストの最後に急激に低下する。
そこで本研究では,LLMに基づく会話レコメンデータシステムのエンドツーエンドトレーニングのための2段階フレームワークであるConvRec-R1を提案する。
ステージ1では、強力なブラックボックスLLMから高品質なカタロググラウンドのデモを生成し、RLトレーニングをウォームスタートするRemap-Reflect-Adjustパイプラインを用いて行動閉鎖データセットを構築した。
ステージ2では、ランクスタイルの出力を持つタスクに適したグループ相対ポリシー最適化(GRPO)の原則拡張であるランク-GRPOを提案する。
Rank-GRPOは、レコメンデーションリストの各ランクをトークン(きめ細かい)やシーケンス(きめ細かな)ではなく単位として扱い、非因果的クレジット代入を取り除く報酬を再定義し、ランクワイドトークン確率の幾何学的平均に基づいてランクレベルの重要度を導入してポリシー更新を安定化させる。
公開Reddit-v2データセットの実験によると、ConvRec-R1はGRPOスタイルのベースラインよりも早く収束し、リコールとNDCGが向上している。
コードとデータセットはhttps://github.com/yaochenzhu/Rank-GRPO.orgで公開されている。
関連論文リスト
- RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation [36.297513746770456]
提案するRangGRは、リストワイズ直接選好最適化をレコメンデーションに組み込んだジェネレーティブ検索手法である。
IAPでは、新しいリストワイズ直接選好最適化戦略をGRに組み込んで、階層的ユーザの選好をより包括的に理解する。
トレーニングとデプロイメントにおいていくつかの実践的な改善を実現し、最終的には毎秒1万近いリクエストを処理可能なリアルタイムシステムを実現しています。
論文 参考訳(メタデータ) (2026-02-09T12:13:43Z) - LlamaRec-LKG-RAG: A Single-Pass, Learnable Knowledge Graph-RAG Framework for LLM-Based Ranking [0.0]
LlamaRec-LKG-RAGは、パーソナライズされた知識グラフコンテキストをレコメンデーションランキングに統合する、新しい単一パスでエンドツーエンドのトレーニング可能なフレームワークである。
提案手法はLlamaRecアーキテクチャを拡張し,ユーザプライオリティを動的に識別する軽量なモジュールを組み込むことで実現した。
ML-100KとAmazon Beautyデータセットの実験では、主要なランキングメトリクス間でLlamaRecよりも一貫性があり、重要な改善が示されている。
論文 参考訳(メタデータ) (2025-06-09T05:52:03Z) - DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-05-22T15:49:38Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。