論文の概要: RecNet: Self-Evolving Preference Propagation for Agentic Recommender Systems
- arxiv url: http://arxiv.org/abs/2601.21609v1
- Date: Thu, 29 Jan 2026 12:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.794379
- Title: RecNet: Self-Evolving Preference Propagation for Agentic Recommender Systems
- Title(参考訳): RecNet: エージェントレコメンダシステムのための自己進化型推論プロパゲーション
- Authors: Bingqian Li, Xiaolei Wang, Junyi Li, Weitao Li, Long Zhang, Sheng Chen, Wayne Xin Zhao, Ji-Rong Wen,
- Abstract要約: RecNetは、レコメンデータシステムのための自己進化的な好みの伝達フレームワークである。
関連ユーザやアイテム間で、リアルタイムの好み更新を積極的に伝達する。
逆相では、フィードバック駆動の伝搬最適化機構がマルチエージェント強化学習フレームワークをシミュレートする。
- 参考スコア(独自算出の注目度): 109.9061591263748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic recommender systems leverage Large Language Models (LLMs) to model complex user behaviors and support personalized decision-making. However, existing methods primarily model preference changes based on explicit user-item interactions, which are sparse, noisy, and unable to reflect the real-time, mutual influences among users and items. To address these limitations, we propose RecNet, a self-evolving preference propagation framework that proactively propagates real-time preference updates across related users and items. RecNet consists of two complementary phases. In the forward phase, the centralized preference routing mechanism leverages router agents to integrate preference updates and dynamically propagate them to the most relevant agents. To ensure accurate and personalized integration of propagated preferences, we further introduce a personalized preference reception mechanism, which combines a message buffer for temporary caching and an optimizable, rule-based filter memory to guide selective preference assimilation based on past experience and interests. In the backward phase, the feedback-driven propagation optimization mechanism simulates a multi-agent reinforcement learning framework, using LLMs for credit assignment, gradient analysis, and module-level optimization, enabling continuous self-evolution of propagation strategies. Extensive experiments on various scenarios demonstrate the effectiveness of RecNet in modeling preference propagation for recommender systems.
- Abstract(参考訳): エージェントレコメンデータシステムは、LLM(Large Language Models)を利用して、複雑なユーザの振る舞いをモデル化し、パーソナライズされた意思決定をサポートする。
しかし,既存手法では,ユーザと項目間の相互影響を反映できない,疎外的でノイズの多い,明示的なユーザとイテムの相互作用に基づく嗜好の変化をモデル化する。
これらの制約に対処するため、我々はRecNetを提案する。RecNetは、関連ユーザやアイテム間でリアルタイムの嗜好更新を積極的に伝播する自己進化的嗜好伝達フレームワークである。
RecNetは2つの相補的なフェーズから構成される。
フォワードフェーズでは、中央集権的な選好ルーティング機構がルータエージェントを活用して、選好更新を統合し、それらを最も関連性の高いエージェントに動的に伝達する。
さらに,メッセージバッファを一時キャッシングするためのメッセージバッファと最適化可能なルールベースのフィルタメモリを組み合わせることで,過去の経験や関心事に基づく選好同化を導出するパーソナライズされた選好受信機構を導入する。
フィードバック駆動型伝搬最適化機構は, 信頼割当, 勾配解析, モジュールレベルの最適化にLLMを用いて, マルチエージェント強化学習フレームワークをシミュレートし, 伝搬戦略の継続的自己進化を可能にする。
様々なシナリオにおける大規模な実験は、レコメンデータシステムにおける好みの伝達のモデル化におけるRecNetの有効性を示す。
関連論文リスト
- Tree of Preferences for Diversified Recommendation [54.183647833064136]
データバイアスの観点から、多種多様な推薦について検討する。
本研究では,世界知識を活用したゼロショット推論における大規模言語モデル(LLM)の卓越した性能に着想を得て,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-24T04:13:17Z) - Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - A Novel Self-Evolution Framework for Large Language Models [18.62332474172811]
本稿では,ユーザの嗜好適応とドメイン固有能力を協調的に最適化する新しいDual-Phase Self-Evolutionフレームワークを提案する。
一般的なNLPベンチマークと長期対話タスクによる実験は、DPSEが常にSupervised Fine-Tuning、Preference Optimization、Memory-Augmented baselinesより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-21T06:30:39Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - MODULI: Unlocking Preference Generalization via Diffusion Models for Offline Multi-Objective Reinforcement Learning [36.24516512865215]
多目的強化学習(MORL)は、複数の対立する目標を同時に最適化する政策の開発を目指している。
オフラインMORLは、事前コンパイルされたデータセットをトレーニングして、デプロイ時の任意の好みに一般化することで、有望なソリューションを提供する。
既存のオフラインMORLアルゴリズムは、OOD選好の一般化が不十分であり、結果として、選好と一致しないポリシーが生じる。
本稿では,様々な嗜好に整合した軌道を生成するためのプランナーとして,嗜好条件付き拡散モデルを用いたMODULIを提案する。
論文 参考訳(メタデータ) (2024-08-28T03:10:45Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。