論文の概要: REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems
- arxiv url: http://arxiv.org/abs/2508.15308v1
- Date: Thu, 21 Aug 2025 07:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.218823
- Title: REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems
- Title(参考訳): REG4Rec:大規模勧告システムのための推論強化生成モデル
- Authors: Haibo Xing, Hao Deng, Yucheng Mao, Jinxin Hu, Yi Xu, Hao Zhang, Jiahao Wang, Shizhun Wang, Yu Zhang, Xiaoyi Zeng, Jing Zhang,
- Abstract要約: シーケンシャルレコメンデーションは,大規模レコメンデーションシステムにおけるユーザの次の行動を予測することを目的としている。
近年の研究では、ジェネレーティブレコメンデーションに推論プロセスを導入し、レコメンデーションパフォーマンスを大幅に改善している。
これらのアプローチは項目意味表現の特異性によって制約される。
本稿では,複数の動的意味論的推論経路を構成する推論強化生成モデルREG4Recを紹介する。
- 参考スコア(独自算出の注目度): 26.62777046081672
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sequential recommendation aims to predict a user's next action in large-scale recommender systems. While traditional methods often suffer from insufficient information interaction, recent generative recommendation models partially address this issue by directly generating item predictions. To better capture user intents, recent studies have introduced a reasoning process into generative recommendation, significantly improving recommendation performance. However, these approaches are constrained by the singularity of item semantic representations, facing challenges such as limited diversity in reasoning pathways and insufficient reliability in the reasoning process. To tackle these issues, we introduce REG4Rec, a reasoning-enhanced generative model that constructs multiple dynamic semantic reasoning paths alongside a self-reflection process, ensuring high-confidence recommendations. Specifically, REG4Rec utilizes an MoE-based parallel quantization codebook (MPQ) to generate multiple unordered semantic tokens for each item, thereby constructing a larger-scale diverse reasoning space. Furthermore, to enhance the reliability of reasoning, we propose a training reasoning enhancement stage, which includes Preference Alignment for Reasoning (PARS) and a Multi-Step Reward Augmentation (MSRA) strategy. PARS uses reward functions tailored for recommendation to enhance reasoning and reflection, while MSRA introduces future multi-step actions to improve overall generalization. During inference, Consistency-Oriented Self-Reflection for Pruning (CORP) is proposed to discard inconsistent reasoning paths, preventing the propagation of erroneous reasoning. Lastly, we develop an efficient offline training strategy for large-scale recommendation. Experiments on real-world datasets and online evaluations show that REG4Rec delivers outstanding performance and substantial practical value.
- Abstract(参考訳): シーケンシャルレコメンデーションは,大規模レコメンデーションシステムにおけるユーザの次の行動を予測することを目的としている。
従来の手法では情報相互作用が不十分な場合が多いが、近年のジェネレーティブ・レコメンデーション・モデルでは、アイテムの予測を直接生成することでこの問題に部分的に対処している。
ユーザの意図をよりよく捉えるために、最近の研究では、ジェネレーティブレコメンデーションに推論プロセスを導入し、レコメンデーションパフォーマンスを著しく改善している。
しかし、これらのアプローチはアイテム意味表現の特異性によって制約されており、推論経路における多様性の制限や推論過程における信頼性の欠如といった課題に直面している。
これらの問題に対処するために、自己回帰プロセスと並行して複数の動的意味論的推論経路を構築し、高信頼度レコメンデーションを保証する推論強化型生成モデルREG4Recを導入する。
具体的には、REG4Rec は MoE ベースの並列量子化符号ブック (MPQ) を使用して、各項目に対して複数の順序のないセマンティックトークンを生成し、より大規模な多様な推論空間を構築する。
さらに,推論の信頼性を高めるために,推論のための優先度調整(PARS)とマルチステップ・リワード拡張(MSRA)戦略を含む学習推論強化段階を提案する。
PARSは推論とリフレクションを強化するためにレコメンデーション用に調整された報酬関数を使用し、MSRAは全体的な一般化を改善するために将来の多段階アクションを導入している。
推論において,不整合推論経路を排除し,誤推論の伝播を防止するために,一貫性指向型自己回帰法(CORP)を提案する。
最後に、大規模レコメンデーションのための効率的なオフライントレーニング戦略を開発する。
実世界のデータセットとオンライン評価の実験は、REG4Recが優れたパフォーマンスと実質的な価値を提供することを示している。
関連論文リスト
- Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。
RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。
さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Slow Thinking for Sequential Recommendation [88.46598279655575]
本稿では,STREAM-Recという新しいスローシンキングレコメンデーションモデルを提案する。
弊社のアプローチは、過去のユーザの振る舞いを分析し、多段階の熟考的推論プロセスを生成し、パーソナライズされたレコメンデーションを提供する。
具体的には,(1)レコメンデーションシステムにおける適切な推論パターンを特定すること,(2)従来のレコメンデーションシステムの推論能力を効果的に刺激する方法を検討すること,の2つの課題に焦点を当てる。
論文 参考訳(メタデータ) (2025-04-13T15:53:30Z) - Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation [23.546871718624605]
提案するTextbfReaRecは,レコメンデータシステムのための最初の推論時間計算フレームワークである。
ReaRecはシーケンスの最後の隠された状態をシーケンシャルレコメンデータに自動的にフィードする。
本稿では2つの軽量推論に基づく学習手法,ERL(Ensemble Reasoning Learning)とPRL(Progressive Reasoning Learning)を紹介する。
論文 参考訳(メタデータ) (2025-03-28T17:59:03Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。