論文の概要: Reinforced Preference Optimization for Reasoning-Augmented Recommendations
- arxiv url: http://arxiv.org/abs/2605.21967v1
- Date: Thu, 21 May 2026 03:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.083067
- Title: Reinforced Preference Optimization for Reasoning-Augmented Recommendations
- Title(参考訳): Reinforceed Preference Optimization for Reasoning-Augmented Recommendations
- Authors: Jingtong Gao, Zeyu Song, Chi Lu, Xiaopeng Li, Derong Xu, Maolin Wang, Peng Jiang, Kun Gai, Qingpeng Cai, Xiangyu Zhao,
- Abstract要約: 本稿では、Recommenderシステムのための強化された優先最適化フレームワークRPORecを紹介する。
RPORecは、LPMバックボーンの推論能力を、アイテムの正確な検索のために専用のレコメンデーションヘッド(Rechead)と統合する。
公開ベンチマークと大規模オンラインデプロイメントに関する大規模な実験は、RPORecが最先端のLLMベースのレコメンデーションメソッドを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 34.99578717556569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems are critical for delivering personalized content across digital platforms, and recent advances in Large Language Models (LLMs) offer new opportunities to enhance them with richer world knowledge and explicit reasoning capabilities. With the help of reasoning knowledge, recommendations can better infer users' underlying intents, adapt to evolving preferences, and leverage semantic relationships for improved accuracy and interpretability. However, existing reasoning-based recommendation methods often fail to fully align the LLM's reasoning process with recommendation-specific objectives due to structural disruption during integration and difficulties in translating free-form generation into accurate item predictions. In this paper, we introduce RPORec, a reinforced preference optimization framework that unifies an LLM backbone's reasoning ability with a dedicated recommendation head (Rechead) for precise item retrieval. RPORec comprises two stages: (1) Reasoning-Augmented Recommendation Modeling, where high-quality Chain-of-Thought (CoT) reasoning is generated and used as auxiliary knowledge to guide the Rechead in learning recommendation-specific representations; and (2) Advanced Reasoning Refinement and Alignment, in which the trained Rechead produces verifiable rewards to fine-tune the LLM backbone via reinforcement learning, enhancing reasoning quality, structural consistency, and task relevance. Extensive experiments on public benchmarks and large-scale online deployments show that RPORec consistently outperforms state-of-the-art LLM-based recommendation methods, demonstrating the effectiveness of reasoning-augmented recommendation modeling in real-world systems.
- Abstract(参考訳): レコメンダシステムはデジタルプラットフォーム全体でパーソナライズされたコンテンツを配信するために重要であり、近年のLarge Language Models(LLM)の進歩は、より豊かな世界知識と明確な推論能力でそれらを強化する新たな機会を提供する。
知識の推論の助けを借りて、リコメンデーションはユーザーの基本的な意図を推測し、進化する好みに適応し、セマンティックな関係を利用して精度と解釈性を向上させる。
しかし、既存の推論に基づくレコメンデーション手法は、統合中の構造的破壊と、フリーフォーム生成を正確なアイテム予測に変換するのに困難のために、LLMの推論プロセスとレコメンデーション固有の目的とを完全に一致させることができないことが多い。
本稿では,LLMバックボーンの推論能力と専用レコメンデーションヘッド(Rechead)を一体化して項目検索を行う,強化された優先最適化フレームワークRPORecを紹介する。
RPORec は,(1) Reasoning-Augmented Recommendation Modeling, 高品質なChain-of-Thought(CoT)推論が生成され,レコメンデーション固有の表現を学習するための補助知識として使用される,2) Recsoning Refinement and Alignment, 訓練されたRechead が強化学習, 推論品質, 構造的整合性, タスク関連性の向上を通じて LLM バックボーンを微調整するための検証可能な報酬を生成する。
公開ベンチマークと大規模オンライン展開に関する大規模な実験により、RPORecは最先端のLLMベースのレコメンデーション手法を一貫して上回り、実世界のシステムにおける推論強化レコメンデーションモデリングの有効性を実証している。
関連論文リスト
- Reasoning to Rank: An End-to-End Solution for Exploiting Large Language Models for Recommendation [44.51582748617213]
ランクへの推論(Reasoning to Rank)は、言語モデルにおけるステップバイステップ推論の学習に推奨ユーティリティ最適化を内部化するエンドツーエンドのトレーニングフレームワークである。
本フレームワークは,言語モデルのエンド・ツー・エンド・トレーニングに強化学習を導入し,ユーザ・イテムレベルで推論を行う。
論文 参考訳(メタデータ) (2026-02-13T02:22:48Z) - Think before Recommendation: Autonomous Reasoning-enhanced Recommender [25.883091131835172]
RecZeroは強化学習に基づくレコメンデーションパラダイムであり、従来のマルチモデルおよびマルチステージ蒸留アプローチを捨てている。
本稿では、教師付き微調整とRLを組み合わせたハイブリッドパラダイムRecOneについて検討し、そのモデルにコールドスタート推論サンプルを初期化し、さらにRLに最適化する。
論文 参考訳(メタデータ) (2025-10-27T07:26:32Z) - OneRec-Think: In-Text Reasoning for Generative Recommendation [55.53292983432484]
OneRec-Thinkは、対話、推論、パーソナライズされたレコメンデーションをシームレスに統合する統合フレームワークである。
提案した"Think-Ahead"アーキテクチャは,クアイショーの産業展開を効果的に実現し,app Stay Timeの0.159%のアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:20:13Z) - Towards Comprehensible Recommendation with Large Language Model Fine-tuning [41.218487308635126]
本稿では,コラボレーティブ・パースペクティブ・フレームワーク(CURec)によるレコメンデーションシステムのための新しいコンテンツ理解手法を提案する。
Curecは、より包括的なレコメンデーションのために、協調的なコンテンツ機能を生成する。
公開ベンチマークの実験では、既存の方法よりもCURecの方が優れていることが示されている。
論文 参考訳(メタデータ) (2025-08-11T03:55:31Z) - R$^2$ec: Towards Large Recommender Models with Reasoning [59.32598867813266]
R$2$ecは、本質的な推論能力を持つ統一された大型レコメンデータモデルである。
R$2$ecは、推論チェーン生成と効率的なアイテム予測の両方を単一のモデルでサポートするデュアルヘッドアーキテクチャを導入している。
注釈付き推論データの欠如を克服するため、強化学習フレームワークであるRecPOを設計する。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Improving LLM Interpretability and Performance via Guided Embedding Refinement for Sequential Recommendation [18.13513199455587]
本稿では,ベースレコメンデーションシステムに付随する埋め込みを強化するための,ガイド付き埋め込み改良法を提案する。
我々は、解釈可能な属性のドメイン関連セマンティック情報をキャプチャするガイド付き埋め込みを生成する。
改良された埋め込みは平均相反ランク(MRR)、リコールレート、正規化された非カウント累積ゲイン(NDCG)の約10%から50%のゲインを達成する。
論文 参考訳(メタデータ) (2025-04-15T23:03:53Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。