論文の概要: LLM-Enhanced Reinforcement Learning for Long-Term User Satisfaction in Interactive Recommendation
- arxiv url: http://arxiv.org/abs/2601.19585v1
- Date: Tue, 27 Jan 2026 13:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.327626
- Title: LLM-Enhanced Reinforcement Learning for Long-Term User Satisfaction in Interactive Recommendation
- Title(参考訳): 対話型リコメンデーションにおける長期ユーザ満足のためのLLM強化強化強化学習
- Authors: Chongjun Xia, Yanchun Peng, Xianzhi Wang,
- Abstract要約: 本稿では,LLM強化強化強化学習(LERL)を提案する。
LERLは、意味的に多様なコンテンツカテゴリを選択する高レベルなLLMベースのプランナーと、パーソナライズされたアイテムを推奨する低レベルなRLポリシーで構成されている。
LERLは、最先端のベースラインと比較して、長期的なユーザ満足度を著しく向上させる。
- 参考スコア(独自算出の注目度): 3.247395557141079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive recommender systems can dynamically adapt to user feedback, but often suffer from content homogeneity and filter bubble effects due to overfitting short-term user preferences. While recent efforts aim to improve content diversity, they predominantly operate in static or one-shot settings, neglecting the long-term evolution of user interests. Reinforcement learning provides a principled framework for optimizing long-term user satisfaction by modeling sequential decision-making processes. However, its application in recommendation is hindered by sparse, long-tailed user-item interactions and limited semantic planning capabilities. In this work, we propose LLM-Enhanced Reinforcement Learning (LERL), a novel hierarchical recommendation framework that integrates the semantic planning power of LLM with the fine-grained adaptability of RL. LERL consists of a high-level LLM-based planner that selects semantically diverse content categories, and a low-level RL policy that recommends personalized items within the selected semantic space. This hierarchical design narrows the action space, enhances planning efficiency, and mitigates overexposure to redundant content. Extensive experiments on real-world datasets demonstrate that LERL significantly improves long-term user satisfaction when compared with state-of-the-art baselines. The implementation of LERL is available at https://anonymous.4open.science/r/code3-18D3/.
- Abstract(参考訳): 対話型レコメンダシステムはユーザのフィードバックに動的に適応するが、短期的なユーザの嗜好に過度に適合するため、コンテンツ均質性やバブル効果に悩まされることが多い。
最近の取り組みは、コンテンツの多様性を改善することを目的としているが、それらは主に静的またはワンショットの環境で運用され、ユーザー興味の長期的進化を無視している。
強化学習は、シーケンシャルな意思決定プロセスをモデル化することによって、長期的なユーザ満足度を最適化するための原則化されたフレームワークを提供する。
しかし、リコメンデーションにおけるその応用は、スパースで長い尾のユーザー・イテム相互作用と限定的なセマンティック・プランニング機能によって妨げられている。
本稿では、LLMのセマンティックプランニング能力とRLの微粒化適応性を統合する新しい階層的推薦フレームワークであるLLM強化強化学習(LERL)を提案する。
LERLは、意味的に多様なコンテンツカテゴリを選択する高レベルなLLMベースのプランナーと、選択されたセマンティック空間内のパーソナライズされたアイテムを推奨する低レベルなRLポリシーで構成されている。
この階層的な設計はアクション空間を狭め、計画効率を高め、冗長なコンテンツへの過剰な露出を軽減します。
実世界のデータセットに対する大規模な実験により、LERLは最先端のベースラインと比較して長期的なユーザの満足度を著しく向上することが示された。
LERLの実装はhttps://anonymous.4open.science/r/code3-18D3/で公開されている。
関連論文リスト
- Using LLMs to Capture Users' Temporal Context for Recommendation [3.719862246745416]
本稿では,Large Language Models (LLMs) を用いて,意味的にリッチでタイムアウェアなユーザプロファイルを生成する手法を提案する。
我々は、新しいエンドツーエンドレコメンデーションアーキテクチャを提案していないが、中核となる貢献は、LLMの有効性の程度を体系的に調査することである。
Movies&TV と Video Games のドメイン間での評価では、LLM の生成したプロファイルは意味的な深さと時間構造を提供するが、コンテキスト対応のレコメンデーションの有効性はユーザーインタラクション履歴の豊かさに特有である。
論文 参考訳(メタデータ) (2025-08-11T22:48:31Z) - Temporal User Profiling with LLMs: Balancing Short-Term and Long-Term Preferences for Recommendations [3.719862246745416]
本稿では,短期および長期の嗜好を明示的にモデル化するユーザプロファイリング手法を提案する。
LLM-TUPは、いくつかのベースラインに対して大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-11T20:28:24Z) - DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-05-22T15:49:38Z) - User Feedback Alignment for LLM-powered Exploration in Large-scale Recommendation Systems [26.652050105571206]
大規模なレコメンデーションシステムでは,ユーザエクスペリエンスを,確立された嗜好を超えて拡張する行為であるExplorationが課題となっている。
本稿では,階層型計画とLLM推論時間スケーリングを組み合わせた新しい手法を提案する。
ユーザ満足度(ウォッチアクティビティとアクティブユーザ数で測定)と探索多様性の両面で有意な向上を示した。
論文 参考訳(メタデータ) (2025-04-07T21:44:12Z) - Beyond Inter-Item Relations: Dynamic Adaption for Enhancing LLM-Based Sequential Recommendation [83.87767101732351]
逐次リコメンデータシステム(SRS)は,ユーザの過去のインタラクションシーケンスに基づいて,ユーザが好む次の項目を予測する。
様々なAIアプリケーションにおける大規模言語モデル(LLM)の台頭に触発されて、LLMベースのSRSの研究が急増している。
我々は,大きめの粒度適応の上に構築された逐次レコメンデーションモデルであるDARecを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:03:40Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。