論文の概要: $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning
- arxiv url: http://arxiv.org/abs/2505.16994v1
- Date: Thu, 22 May 2025 17:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.540173
- Title: $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning
- Title(参考訳): $\text{R}^2\text{ec}$:Reasoningによる大規模リコメンダモデルを目指して
- Authors: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie,
- Abstract要約: 我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。
RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。
さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
- 参考スコア(独自算出の注目度): 50.291998724376654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. Current studies usually position LLMs as external reasoning modules to yield auxiliary thought for augmenting conventional recommendation pipelines. However, such decoupled designs are limited in significant resource cost and suboptimal joint optimization. To address these issues, we propose \name, a unified large recommender model with intrinsic reasoning capabilities. Initially, we reconceptualize the model architecture to facilitate interleaved reasoning and recommendation in the autoregressive process. Subsequently, we propose RecPO, a corresponding reinforcement learning framework that optimizes \name\ both the reasoning and recommendation capabilities simultaneously in a single policy update; RecPO introduces a fused reward scheme that solely leverages recommendation labels to simulate the reasoning capability, eliminating dependency on specialized reasoning annotations. Experiments on three datasets with various baselines verify the effectiveness of \name, showing relative improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at https://github.com/YRYangang/RRec.
- Abstract(参考訳): 大型のレコメンデーターモデルはエンコーディングやアイテム生成を通じて強力なレコメンデーターとしてLLMを拡張しており、最近のLLM推論のブレークスルーは、レコメンデーションにおける推論の探索を同期的に動機付けている。
最近の研究では、LLMを外部推論モジュールとして位置づけ、従来のレコメンデーションパイプラインを増強するための補助的な思考を提供する。
しかし、そのような分離された設計は、資源コストと最適下共同最適化において制限されている。
これらの問題に対処するため,本質的な推論機能を備えた大型リコメンデータモデルである \name を提案する。
当初、我々はモデルアーキテクチャを再認識し、自己回帰プロセスにおけるインターリーブド推論とレコメンデーションを容易にする。
RecPOでは、レコメンデーションラベルのみを利用して推論能力をシミュレートし、特別な推論アノテーションへの依存をなくす、融合報酬スキームを導入する。
さまざまなベースラインを持つ3つのデータセットの実験では、nameの有効性が検証され、hit@5では68.67\%、NDCG@20では45.21\%の相対的な改善が見られた。
コードはhttps://github.com/YRYangang/RRec.comで公開されている。
関連論文リスト
- LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
LARESは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-05-22T15:49:38Z) - Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation [20.965068290049057]
提案するTextbfReaRecは,レコメンデータシステムのための最初の推論時間計算フレームワークである。
ReaRecはシーケンスの最後の隠された状態をシーケンシャルレコメンデータに自動的にフィードする。
本稿では2つの軽量推論に基づく学習手法,ERL(Ensemble Reasoning Learning)とPRL(Progressive Reasoning Learning)を紹介する。
論文 参考訳(メタデータ) (2025-03-28T17:59:03Z) - Towards Scalable Semantic Representation for Recommendation [65.06144407288127]
大規模言語モデル(LLM)に基づく意味的IDを構築するために、Mixture-of-Codesを提案する。
提案手法は,識別性と寸法の堅牢性に優れたスケーラビリティを実現し,提案手法で最高のスケールアップ性能を実現する。
論文 参考訳(メタデータ) (2024-10-12T15:10:56Z) - LANE: Logic Alignment of Non-tuning Large Language Models and Online Recommendation Systems for Explainable Reason Generation [15.972926854420619]
大きな言語モデル(LLM)を活用することで、包括的なレコメンデーションロジック生成の新しい機会を提供する。
レコメンデーションタスクのための微調整LDMモデルは、計算コストと既存のシステムとのアライメントの問題を引き起こす。
本研究は,LLMとオンラインレコメンデーションシステムとの連携を,LLMのチューニングを伴わない効果的戦略LANEを提案する。
論文 参考訳(メタデータ) (2024-07-03T06:20:31Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Can Small Language Models be Good Reasoners for Sequential Recommendation? [34.098264212413305]
SLIM (Step-by-step knowLedge dIstillation fraMework for recommendation)
より大規模な教師モデルのためのユーザ行動系列に基づくCoTプロンプトを導入する。
教師モデルによって生成される理論的根拠をラベルとして利用し、下流のより小さな学生モデルを蒸留する。
論文 参考訳(メタデータ) (2024-03-07T06:49:37Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。