論文の概要: R4ec: A Reasoning, Reflection, and Refinement Framework for Recommendation Systems
- arxiv url: http://arxiv.org/abs/2507.17249v2
- Date: Mon, 11 Aug 2025 02:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.375892
- Title: R4ec: A Reasoning, Reflection, and Refinement Framework for Recommendation Systems
- Title(参考訳): R4ec:レコメンデーションシステムのための推論、リフレクション、リファインメントフレームワーク
- Authors: Hao Gu, Rui Zhong, Yu Xia, Wei Yang, Chi Lu, Peng Jiang, Kun Gai,
- Abstract要約: R4$ecは、リコメンデーションシステムを弱いSystem-2モデルに進化させる推論、リフレクション、改善フレームワークである。
我々は反復的なリフレクション・リフレクション・リファインメント・プロセスを採用し、LLMがシステム-2のような思考を遅く、意図的に促進することを可能にする。
我々はAmazon-BookとMovieLens-1Mデータセットの広範な実験を行い、R4$ecの優位性を実証した。
- 参考スコア(独自算出の注目度): 20.799908078827045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harnessing Large Language Models (LLMs) for recommendation systems has emerged as a prominent avenue, drawing substantial research interest. However, existing approaches primarily involve basic prompt techniques for knowledge acquisition, which resemble System-1 thinking. This makes these methods highly sensitive to errors in the reasoning path, where even a small mistake can lead to an incorrect inference. To this end, in this paper, we propose $R^{4}$ec, a reasoning, reflection and refinement framework that evolves the recommendation system into a weak System-2 model. Specifically, we introduce two models: an actor model that engages in reasoning, and a reflection model that judges these responses and provides valuable feedback. Then the actor model will refine its response based on the feedback, ultimately leading to improved responses. We employ an iterative reflection and refinement process, enabling LLMs to facilitate slow and deliberate System-2-like thinking. Ultimately, the final refined knowledge will be incorporated into a recommendation backbone for prediction. We conduct extensive experiments on Amazon-Book and MovieLens-1M datasets to demonstrate the superiority of $R^{4}$ec. We also deploy $R^{4}$ec on a large scale online advertising platform, showing 2.2\% increase of revenue. Furthermore, we investigate the scaling properties of the actor model and reflection model.
- Abstract(参考訳): レコメンデーションシステムのための大規模言語モデル(LLM)のハーネスリングが目立った道として現れており、かなりの研究の関心を集めている。
しかし、既存のアプローチは主にシステム1の思考に類似した知識獲得のための基本的なプロンプト技術を含んでいる。
これにより、これらのメソッドは推論パスのエラーに非常に敏感になり、小さなミスであっても誤った推論につながる可能性がある。
そこで本稿では,リコメンデーションシステムを弱いシステム2モデルに進化させる推論・リフレクション・リフレクション・リファインメント・フレームワークである$R^{4}$ecを提案する。
具体的には、推論に関わるアクターモデルと、これらの応答を判断し、貴重なフィードバックを提供するリフレクションモデルという2つのモデルを紹介する。
そしてアクターモデルがフィードバックに基づいて応答を洗練し、最終的に応答が改善される。
我々は反復的なリフレクション・リフレクション・リファインメント・プロセスを採用し、LLMがシステム-2のような思考を遅く、意図的に促進することを可能にする。
最終的に、最終的な洗練された知識は、予測のための推奨バックボーンに組み込まれる。
我々はAmazon-BookとMovieLens-1Mデータセットの広範な実験を行い、$R^{4}$ecの優位性を実証した。
また、大規模なオンライン広告プラットフォームに$R^{4}$ecをデプロイし、収益の2.2\%の増加を示している。
さらに,アクターモデルとリフレクションモデルのスケーリング特性について検討した。
関連論文リスト
- $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。
RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。
さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - ThinkRec: Thinking-based recommendation via LLM [19.398302729633397]
ThinkRec は LLM4Rec を System 1 から System 2 (レーショナルシステム) に移行する思考ベースのフレームワークである。
ThinkRecは、キーワードの要約でアイテムメタデータを拡張し、合成推論トレースを注入するシンクアクティベーションメカニズムを導入している。
ThinkRecは、ユーザの潜在機能に基づいて専門家モデルに重みを動的に割り当てることで、個々のユーザへの推論パスを適応させ、精度とパーソナライゼーションを向上させる。
論文 参考訳(メタデータ) (2025-05-21T04:25:18Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Model-free Reinforcement Learning with Stochastic Reward Stabilization
for Recommender Systems [20.395091290715502]
あるユーザの異なる時間における同じ項目に対するフィードバックはランダムである。
直接フィードバックを教師付きモデルで学んだものと置き換える2つの報酬安定化フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-25T08:42:45Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Fast Multi-Step Critiquing for VAE-based Recommender Systems [27.207067974031805]
M&Ms-VAEは、提案と説明のための新しい変分オートエンコーダです。
モデルを弱い監督スキームでトレーニングし、完全および部分的に観察された変数をシミュレートします。
次に、訓練されたM&Ms-VAEモデルの一般化能力を利用して、ユーザの好みと批判を個別に埋め込む。
論文 参考訳(メタデータ) (2021-05-03T12:26:09Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。