論文の概要: Think before Recommendation: Autonomous Reasoning-enhanced Recommender
- arxiv url: http://arxiv.org/abs/2510.23077v1
- Date: Mon, 27 Oct 2025 07:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.48579
- Title: Think before Recommendation: Autonomous Reasoning-enhanced Recommender
- Title(参考訳): レコメンデーション前を考える:自律的レコメンデーション強化レコメンデーション
- Authors: Xiaoyu Kong, Junguang Jiang, Bin Liu, Ziru Xu, Han Zhu, Jian Xu, Bo Zheng, Jiancan Wu, Xiang Wang,
- Abstract要約: RecZeroは強化学習に基づくレコメンデーションパラダイムであり、従来のマルチモデルおよびマルチステージ蒸留アプローチを捨てている。
本稿では、教師付き微調整とRLを組み合わせたハイブリッドパラダイムRecOneについて検討し、そのモデルにコールドスタート推論サンプルを初期化し、さらにRLに最適化する。
- 参考スコア(独自算出の注目度): 25.883091131835172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The core task of recommender systems is to learn user preferences from historical user-item interactions. With the rapid development of large language models (LLMs), recent research has explored leveraging the reasoning capabilities of LLMs to enhance rating prediction tasks. However, existing distillation-based methods suffer from limitations such as the teacher model's insufficient recommendation capability, costly and static supervision, and superficial transfer of reasoning ability. To address these issues, this paper proposes RecZero, a reinforcement learning (RL)-based recommendation paradigm that abandons the traditional multi-model and multi-stage distillation approach. Instead, RecZero trains a single LLM through pure RL to autonomously develop reasoning capabilities for rating prediction. RecZero consists of two key components: (1) "Think-before-Recommendation" prompt construction, which employs a structured reasoning template to guide the model in step-wise analysis of user interests, item features, and user-item compatibility; and (2) rule-based reward modeling, which adopts group relative policy optimization (GRPO) to compute rewards for reasoning trajectories and optimize the LLM. Additionally, the paper explores a hybrid paradigm, RecOne, which combines supervised fine-tuning with RL, initializing the model with cold-start reasoning samples and further optimizing it with RL. Experimental results demonstrate that RecZero and RecOne significantly outperform existing baseline methods on multiple benchmark datasets, validating the superiority of the RL paradigm in achieving autonomous reasoning-enhanced recommender systems.
- Abstract(参考訳): 推薦システムのコアタスクは、歴史的なユーザ-イテムインタラクションからユーザの好みを学習することである。
近年,大規模言語モデル (LLM) の急速な発展に伴い,LLMの推論能力を活用して評価予測タスクを強化する研究が進められている。
しかし, 既存の蒸留法は, 教師モデルの推奨能力の不足, コストと静的監督, 推論能力の表在化といった限界に悩まされている。
これらの課題に対処するために, 従来の多段蒸留手法を捨てた強化学習(RL)に基づくレコメンデーションパラダイムであるRecZeroを提案する。
代わりにRecZeroは、純粋なRLを通して単一のLLMを訓練し、評価予測のための推論能力を自律的に開発する。
RecZero は,(1) 利用者の関心や項目の特徴,ユーザとイテムの互換性を段階的に分析する構造的推論テンプレートを,(2) 相対的政策最適化(GRPO) を用いたルールベース報酬モデリングにより,軌道の推論とLLMの最適化を行う。
さらに、教師付き微調整とRLを組み合わせたハイブリッドパラダイムRecOneを探索し、コールドスタート推論サンプルでモデルを初期化し、さらにRLで最適化する。
実験により、RecZeroとRecOneは、複数のベンチマークデータセット上で既存のベースライン手法を著しく上回り、自律推論強化レコメンデータシステムを実現する上で、RLパラダイムの優位性を検証した。
関連論文リスト
- OneRec-Think: In-Text Reasoning for Generative Recommendation [55.53292983432484]
OneRec-Thinkは、対話、推論、パーソナライズされたレコメンデーションをシームレスに統合する統合フレームワークである。
提案した"Think-Ahead"アーキテクチャは,クアイショーの産業展開を効果的に実現し,app Stay Timeの0.159%のアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:20:13Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Towards Comprehensible Recommendation with Large Language Model Fine-tuning [41.218487308635126]
本稿では,コラボレーティブ・パースペクティブ・フレームワーク(CURec)によるレコメンデーションシステムのための新しいコンテンツ理解手法を提案する。
Curecは、より包括的なレコメンデーションのために、協調的なコンテンツ機能を生成する。
公開ベンチマークの実験では、既存の方法よりもCURecの方が優れていることが示されている。
論文 参考訳(メタデータ) (2025-08-11T03:55:31Z) - RecLLM-R1: A Two-Stage Training Paradigm with Reinforcement Learning and Chain-of-Thought v1 [20.92548890511589]
本稿では,Large Language Models(LLM)を利用したレコメンデーションフレームワークであるRecLLM-R1を紹介する。
RecLLM-R1は、精度、多様性、新規性など、さまざまな評価指標において、既存のベースラインメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2025-06-24T01:39:34Z) - R$^2$ec: Towards Large Recommender Models with Reasoning [59.32598867813266]
R$2$ecは、本質的な推論能力を持つ統一された大型レコメンデータモデルである。
R$2$ecは、推論チェーン生成と効率的なアイテム予測の両方を単一のモデルでサポートするデュアルヘッドアーキテクチャを導入している。
注釈付き推論データの欠如を克服するため、強化学習フレームワークであるRecPOを設計する。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。