Fugu-MT 論文翻訳(概要): Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning

論文の概要: Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2503.24289v1
Date: Mon, 31 Mar 2025 16:36:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:57.507937
Title: Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
Title（参考訳）: Rec-R1:強化学習による生成型大規模言語モデルとユーザ中心推薦システム
Authors: Jiacheng Lin, Tian Wang, Kun Qian,
Abstract要約: Rec-R1は大規模言語モデル(LLM)をクローズドループ最適化を通じてレコメンデーションシステムでブリッジする。プロンプトや教師付き微調整(SFT)とは異なり、Rec-R1は固定ブラックボックスレコメンデーションモデルからのフィードバックを使って直接LLM生成を最適化する。
参考スコア（独自算出の注目度）: 6.44608398856033
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Rec-R1, a general reinforcement learning framework that bridges large language models (LLMs) with recommendation systems through closed-loop optimization. Unlike prompting and supervised fine-tuning (SFT), Rec-R1 directly optimizes LLM generation using feedback from a fixed black-box recommendation model, without relying on synthetic SFT data from proprietary models such as GPT-4o. This avoids the substantial cost and effort required for data distillation. To verify the effectiveness of Rec-R1, we evaluate it on two representative tasks: product search and sequential recommendation. Experimental results demonstrate that Rec-R1 not only consistently outperforms prompting- and SFT-based methods, but also achieves significant gains over strong discriminative baselines, even when used with simple retrievers such as BM25. Moreover, Rec-R1 preserves the general-purpose capabilities of the LLM, unlike SFT, which often impairs instruction-following and reasoning. These findings suggest Rec-R1 as a promising foundation for continual task-specific adaptation without catastrophic forgetting.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)をクローズドループ最適化によりレコメンデーションシステムにブリッジする汎用強化学習フレームワークRec-R1を提案する。プロンプトや教師付き微調整(SFT)とは異なり、Rec-R1はGPT-4oのようなプロプライエタリなモデルからの合成SFTデータに頼ることなく、固定されたブラックボックスレコメンデーションモデルからのフィードバックを使ってLCM生成を直接最適化する。これにより、データ蒸留に必要なかなりのコストと労力が回避される。 Rec-R1の有効性を検証するために,製品検索とシーケンシャルレコメンデーションという2つの代表的な課題について評価を行った。実験結果から, Rec-R1 はプロンプト法や SFT 法よりも優れており, BM25 などの単純なリトリーバーを用いた場合においても, 強い差別的ベースラインよりも顕著に向上することが示された。さらに、Rec-R1はSFTとは異なり、LLMの汎用能力を保っている。以上の結果から, Rec-R1は破滅的忘れを伴わずに連続的なタスク特異的適応の基礎となる可能性が示唆された。

関連論文リスト

MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation [50.417769112326546]
MiniRecは、RLベースの大規模言語モデル(LLM)レコメンデーションに適したデータ選択フレームワークである。重要なRL信号 -- 報酬 -- を使ってサンプルの学習性を評価する。
論文参考訳（メタデータ） (2026-02-04T07:15:49Z)
Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文参考訳（メタデータ） (2026-01-31T10:02:43Z)
From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。このようにして、RLVRRは報酬を2つの次元に分解する。
論文参考訳（メタデータ） (2026-01-26T14:39:58Z)
Think before Recommendation: Autonomous Reasoning-enhanced Recommender [25.883091131835172]
RecZeroは強化学習に基づくレコメンデーションパラダイムであり、従来のマルチモデルおよびマルチステージ蒸留アプローチを捨てている。本稿では、教師付き微調整とRLを組み合わせたハイブリッドパラダイムRecOneについて検討し、そのモデルにコールドスタート推論サンプルを初期化し、さらにRLに最適化する。
論文参考訳（メタデータ） (2025-10-27T07:26:32Z)
Reinforced Preference Optimization for Recommendation [28.87206911186567]
本稿では,レコメンデーションのためのReinforced Preference Optimization for Recommendation (ReRe)を提案する。 ReReは制約ビーム探索を取り入れてサンプリング効率を改善し、ハードネガを多様化する。 ReRe は従来型と LLM ベースのレコメンデータのランク付け性能を一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-10-14T07:04:33Z)
Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval [28.986143611245836]
本稿では,マルチモーダルユニバーサル検索に特化したR1スタイルMLLMであるRetrv-R1を紹介する。検索タスクにDeepSeek-R1のメソッドを直接適用することは不可能である。これらの問題に対処するため、Retrv-R1は詳細検査機構を備えた情報圧縮モジュールを導入した。
論文参考訳（メタデータ） (2025-10-03T06:16:58Z)
RecLLM-R1: A Two-Stage Training Paradigm with Reinforcement Learning and Chain-of-Thought v1 [20.92548890511589]
本稿では,Large Language Models(LLM)を利用したレコメンデーションフレームワークであるRecLLM-R1を紹介する。 RecLLM-R1は、精度、多様性、新規性など、さまざまな評価指標において、既存のベースラインメソッドを大幅に上回っている。
論文参考訳（メタデータ） (2025-06-24T01:39:34Z)
Optimizing Length Compression in Large Reasoning Models [15.730667464815548]
大規模な推論モデル(LRM)は、しばしば不要で冗長な推論連鎖を生成する。冗長性の排除を提唱するBrevityと、批判的推論ステップの保存を保証するSufficiencyという、2つの新しいきめ細かい原則を提案する。 LC-R1は、全体的な簡潔さのためにリワード長(Reward Length)と、思考プロセスの無効部分を取り除くために特別に設計された圧縮リワード(Compress Reward)を組み合わせている。
論文参考訳（メタデータ） (2025-06-17T17:50:16Z)
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning [21.70706473875226]
本稿では,2段階のフレームワークであるReinforcement Distillation (REDI)を提案する。 Supervised Fine-Tuning (SFT) による正のトレースから学ぶステージ1 ステージ2は、提案したREDI目標を通じて、正と負の両方のトレースを用いてモデルをさらに洗練する。 DPO/SimPOを併用したベースラインリジェクションサンプリングSFTやSFTよりもREDIが優れていることを示す実験的検討を行った。
論文参考訳（メタデータ） (2025-05-30T17:47:17Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
$\ ext{R}^2\ ext{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。 RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文参考訳（メタデータ） (2025-05-22T17:55:43Z)
Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文参考訳（メタデータ） (2025-04-07T15:27:37Z)
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。 TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文参考訳（メタデータ） (2025-03-08T03:14:26Z)
Benchmarking LLMs in Recommendation Tasks: A Comparative Evaluation with Conventional Recommenders [27.273217543282215]
本稿では、クリックスルーレート予測(CTR)とシーケンシャルレコメンデーション(SeqRec)という2つの主要なレコメンデーションタスクを評価するRecBenchを紹介する。実験は最大17種類の大モデルを対象としており、ファッション、ニュース、ビデオ、書籍、音楽ドメインの5つの多様なデータセットで実施されている。以上の結果から,LCMベースのレコメンデータは従来のレコメンデータよりも優れ,CTRシナリオでは最大5%のAUC改善,SeqRecシナリオでは最大170%のNDCG@10改善を実現した。
論文参考訳（メタデータ） (2025-03-07T15:05:23Z)
All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning [40.93098780862429]
基礎モデルファインチューニング(FT)における最強の結果は,比較的複雑な2段階の訓練手順によって達成されることを示す。 1つは、ダウンストリーム強化学習手順の一部としてオンラインフィードバックを提供するために使用する前に、あるデータセット(例えば人間の好み)に報酬モデル(RM)をトレーニングする。我々は、生成検証ギャップの問題、比較的単純なRMを好みデータから学習することの容易さ、下流のRLプロシージャが探索空間を最適なポリシーのサブセットにフィルタリングする能力の組み合わせ、といった説明を最も支持している。
論文参考訳（メタデータ） (2025-03-03T00:15:19Z)
The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文参考訳（メタデータ） (2025-01-04T03:26:46Z)
SPRec: Self-Play to Debias LLM-based Recommendation [23.875509546540904]
大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。 SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
論文参考訳（メタデータ） (2024-12-12T12:53:30Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文参考訳（メタデータ） (2024-02-19T18:53:54Z)
RecDCL: Dual Contrastive Learning for Recommendation [65.6236784430981]
本稿では、RecDCLという2つのコントラスト学習推薦フレームワークを提案する。 RecDCLでは、FCLの目的は、ユーザとイテムの正のペアに対する冗長なソリューションを排除することである。 BCLの目的は、表現の堅牢性を高めるために出力ベクトルにコントラスト埋め込みを生成するために利用される。
論文参考訳（メタデータ） (2024-01-28T11:51:09Z)
Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。 SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文参考訳（メタデータ） (2021-11-05T12:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。