論文の概要: R$^2$ec: Towards Large Recommender Models with Reasoning
- arxiv url: http://arxiv.org/abs/2505.16994v2
- Date: Wed, 15 Oct 2025 05:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.594539
- Title: R$^2$ec: Towards Large Recommender Models with Reasoning
- Title(参考訳): R$^2$ec:Reasoningによる大規模レコメンダモデルに向けて
- Authors: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie,
- Abstract要約: R$2$ecは、本質的な推論能力を持つ統一された大型レコメンデータモデルである。
R$2$ecは、推論チェーン生成と効率的なアイテム予測の両方を単一のモデルでサポートするデュアルヘッドアーキテクチャを導入している。
注釈付き推論データの欠如を克服するため、強化学習フレームワークであるRecPOを設計する。
- 参考スコア(独自算出の注目度): 59.32598867813266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. In this work, we propose R$^2$ec, a unified large recommender model with intrinsic reasoning capability. R$^2$ec introduces a dual-head architecture that supports both reasoning chain generation and efficient item prediction in a single model, significantly reducing inference latency. To overcome the lack of annotated reasoning data, we design RecPO, a reinforcement learning framework that optimizes reasoning and recommendation jointly with a novel fused reward mechanism. Extensive experiments on three datasets demonstrate that R$^2$ec outperforms traditional, LLM-based, and reasoning-augmented recommender baselines, while further analyses validate its competitive efficiency among conventional LLM-based recommender baselines and strong adaptability to diverse recommendation scenarios. Code and checkpoints available at https://github.com/YRYangang/RRec.
- Abstract(参考訳): 大型のレコメンデーターモデルはエンコーディングやアイテム生成を通じて強力なレコメンデーターとしてLLMを拡張しており、最近のLLM推論のブレークスルーは、レコメンデーションにおける推論の探索を同期的に動機付けている。
本研究では,本研究で提案するR$^2$ecは,本質的な推論能力を持つ統一された大型レコメンデータモデルである。
R$^2$ecは、推論チェーン生成と効率的なアイテム予測の両方を単一のモデルでサポートするデュアルヘッドアーキテクチャを導入し、推論遅延を大幅に削減する。
注釈付き推論データの欠如を克服するため,新たな融合報酬機構とともに推論とレコメンデーションを最適化する強化学習フレームワークRecPOを設計した。
3つのデータセットに対する大規模な実験により、R$^2$ecは従来のLLMベースのレコメンデーションベースラインよりも優れており、また従来のLLMベースのレコメンデーションベースライン間の競争効率と多様なレコメンデーションシナリオへの強い適応性を評価する。
コードとチェックポイントはhttps://github.com/YRYangang/RRec.comで入手できる。
関連論文リスト
- Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文 参考訳(メタデータ) (2025-06-05T14:16:44Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
LARESは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-05-22T15:49:38Z) - Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation [20.965068290049057]
提案するTextbfReaRecは,レコメンデータシステムのための最初の推論時間計算フレームワークである。
ReaRecはシーケンスの最後の隠された状態をシーケンシャルレコメンデータに自動的にフィードする。
本稿では2つの軽量推論に基づく学習手法,ERL(Ensemble Reasoning Learning)とPRL(Progressive Reasoning Learning)を紹介する。
論文 参考訳(メタデータ) (2025-03-28T17:59:03Z) - Towards Scalable Semantic Representation for Recommendation [65.06144407288127]
大規模言語モデル(LLM)に基づく意味的IDを構築するために、Mixture-of-Codesを提案する。
提案手法は,識別性と寸法の堅牢性に優れたスケーラビリティを実現し,提案手法で最高のスケールアップ性能を実現する。
論文 参考訳(メタデータ) (2024-10-12T15:10:56Z) - LANE: Logic Alignment of Non-tuning Large Language Models and Online Recommendation Systems for Explainable Reason Generation [15.972926854420619]
大きな言語モデル(LLM)を活用することで、包括的なレコメンデーションロジック生成の新しい機会を提供する。
レコメンデーションタスクのための微調整LDMモデルは、計算コストと既存のシステムとのアライメントの問題を引き起こす。
本研究は,LLMとオンラインレコメンデーションシステムとの連携を,LLMのチューニングを伴わない効果的戦略LANEを提案する。
論文 参考訳(メタデータ) (2024-07-03T06:20:31Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Can Small Language Models be Good Reasoners for Sequential Recommendation? [34.098264212413305]
SLIM (Step-by-step knowLedge dIstillation fraMework for recommendation)
より大規模な教師モデルのためのユーザ行動系列に基づくCoTプロンプトを導入する。
教師モデルによって生成される理論的根拠をラベルとして利用し、下流のより小さな学生モデルを蒸留する。
論文 参考訳(メタデータ) (2024-03-07T06:49:37Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。