論文の概要: $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning
- arxiv url: http://arxiv.org/abs/2505.16994v1
- Date: Thu, 22 May 2025 17:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.540173
- Title: $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning
- Title(参考訳): $\text{R}^2\text{ec}$:Reasoningによる大規模リコメンダモデルを目指して
- Authors: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie,
- Abstract要約: 我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。
RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。
さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
- 参考スコア(独自算出の注目度): 50.291998724376654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. Current studies usually position LLMs as external reasoning modules to yield auxiliary thought for augmenting conventional recommendation pipelines. However, such decoupled designs are limited in significant resource cost and suboptimal joint optimization. To address these issues, we propose \name, a unified large recommender model with intrinsic reasoning capabilities. Initially, we reconceptualize the model architecture to facilitate interleaved reasoning and recommendation in the autoregressive process. Subsequently, we propose RecPO, a corresponding reinforcement learning framework that optimizes \name\ both the reasoning and recommendation capabilities simultaneously in a single policy update; RecPO introduces a fused reward scheme that solely leverages recommendation labels to simulate the reasoning capability, eliminating dependency on specialized reasoning annotations. Experiments on three datasets with various baselines verify the effectiveness of \name, showing relative improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at https://github.com/YRYangang/RRec.
- Abstract(参考訳): 大型のレコメンデーターモデルはエンコーディングやアイテム生成を通じて強力なレコメンデーターとしてLLMを拡張しており、最近のLLM推論のブレークスルーは、レコメンデーションにおける推論の探索を同期的に動機付けている。
最近の研究では、LLMを外部推論モジュールとして位置づけ、従来のレコメンデーションパイプラインを増強するための補助的な思考を提供する。
しかし、そのような分離された設計は、資源コストと最適下共同最適化において制限されている。
これらの問題に対処するため,本質的な推論機能を備えた大型リコメンデータモデルである \name を提案する。
当初、我々はモデルアーキテクチャを再認識し、自己回帰プロセスにおけるインターリーブド推論とレコメンデーションを容易にする。
RecPOでは、レコメンデーションラベルのみを利用して推論能力をシミュレートし、特別な推論アノテーションへの依存をなくす、融合報酬スキームを導入する。
さまざまなベースラインを持つ3つのデータセットの実験では、nameの有効性が検証され、hit@5では68.67\%、NDCG@20では45.21\%の相対的な改善が見られた。
コードはhttps://github.com/YRYangang/RRec.comで公開されている。
関連論文リスト
- Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Think before Recommendation: Autonomous Reasoning-enhanced Recommender [25.883091131835172]
RecZeroは強化学習に基づくレコメンデーションパラダイムであり、従来のマルチモデルおよびマルチステージ蒸留アプローチを捨てている。
本稿では、教師付き微調整とRLを組み合わせたハイブリッドパラダイムRecOneについて検討し、そのモデルにコールドスタート推論サンプルを初期化し、さらにRLに最適化する。
論文 参考訳(メタデータ) (2025-10-27T07:26:32Z) - OneRec-Think: In-Text Reasoning for Generative Recommendation [55.53292983432484]
OneRec-Thinkは、対話、推論、パーソナライズされたレコメンデーションをシームレスに統合する統合フレームワークである。
提案した"Think-Ahead"アーキテクチャは,クアイショーの産業展開を効果的に実現し,app Stay Timeの0.159%のアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:20:13Z) - Towards Comprehensible Recommendation with Large Language Model Fine-tuning [41.218487308635126]
本稿では,コラボレーティブ・パースペクティブ・フレームワーク(CURec)によるレコメンデーションシステムのための新しいコンテンツ理解手法を提案する。
Curecは、より包括的なレコメンデーションのために、協調的なコンテンツ機能を生成する。
公開ベンチマークの実験では、既存の方法よりもCURecの方が優れていることが示されている。
論文 参考訳(メタデータ) (2025-08-11T03:55:31Z) - Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文 参考訳(メタデータ) (2025-06-05T14:16:44Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
LARESは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-05-22T15:49:38Z) - Decoding Recommendation Behaviors of In-Context Learning LLMs Through Gradient Descent [15.425423867768163]
本稿では,理論モデル LLM-ICL Recommendation Equivalent Gradient Descent Model (LRGD) を提案する。
LLMにおけるICL推論プロセスは、その二重モデルのトレーニング手順と一致し、二重モデルの試験出力に相当するトークン予測を生成する。
さらに実演効率を向上し,性能崩壊を防止し,長期適応性を確保するため,実演における2段階最適化プロセスを提案する。
論文 参考訳(メタデータ) (2025-04-06T06:36:45Z) - Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation [20.965068290049057]
提案するTextbfReaRecは,レコメンデータシステムのための最初の推論時間計算フレームワークである。
ReaRecはシーケンスの最後の隠された状態をシーケンシャルレコメンデータに自動的にフィードする。
本稿では2つの軽量推論に基づく学習手法,ERL(Ensemble Reasoning Learning)とPRL(Progressive Reasoning Learning)を紹介する。
論文 参考訳(メタデータ) (2025-03-28T17:59:03Z) - Towards Scalable Semantic Representation for Recommendation [65.06144407288127]
大規模言語モデル(LLM)に基づく意味的IDを構築するために、Mixture-of-Codesを提案する。
提案手法は,識別性と寸法の堅牢性に優れたスケーラビリティを実現し,提案手法で最高のスケールアップ性能を実現する。
論文 参考訳(メタデータ) (2024-10-12T15:10:56Z) - LANE: Logic Alignment of Non-tuning Large Language Models and Online Recommendation Systems for Explainable Reason Generation [15.972926854420619]
大きな言語モデル(LLM)を活用することで、包括的なレコメンデーションロジック生成の新しい機会を提供する。
レコメンデーションタスクのための微調整LDMモデルは、計算コストと既存のシステムとのアライメントの問題を引き起こす。
本研究は,LLMとオンラインレコメンデーションシステムとの連携を,LLMのチューニングを伴わない効果的戦略LANEを提案する。
論文 参考訳(メタデータ) (2024-07-03T06:20:31Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Can Small Language Models be Good Reasoners for Sequential Recommendation? [34.098264212413305]
SLIM (Step-by-step knowLedge dIstillation fraMework for recommendation)
より大規模な教師モデルのためのユーザ行動系列に基づくCoTプロンプトを導入する。
教師モデルによって生成される理論的根拠をラベルとして利用し、下流のより小さな学生モデルを蒸留する。
論文 参考訳(メタデータ) (2024-03-07T06:49:37Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。