論文の概要: Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations
- arxiv url: http://arxiv.org/abs/2507.21274v1
- Date: Mon, 28 Jul 2025 19:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.248937
- Title: Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations
- Title(参考訳): 大規模言語モデルによる多変量および新しい勧告のための強化強化学習
- Authors: Jiin Woo, Alireza Bagheri Garakani, Tianchen Zhou, Zhishen Huang, Yan Gao,
- Abstract要約: 本稿では,LAAC (LLM-guided Adversarial Actor Critic) を提案する。
LAACは、不均衡なデータに頑健でありながら、多様性、ノベルティ、正確性において既存のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 6.949170757786365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recommendation systems, diversity and novelty are essential for capturing varied user preferences and encouraging exploration, yet many systems prioritize click relevance. While reinforcement learning (RL) has been explored to improve diversity, it often depends on random exploration that may not align with user interests. We propose LAAC (LLM-guided Adversarial Actor Critic), a novel method that leverages large language models (LLMs) as reference policies to suggest novel items, while training a lightweight policy to refine these suggestions using system-specific data. The method formulates training as a bilevel optimization between actor and critic networks, enabling the critic to selectively favor promising novel actions and the actor to improve its policy beyond LLM recommendations. To mitigate overestimation of unreliable LLM suggestions, we apply regularization that anchors critic values for unexplored items close to well-estimated dataset actions. Experiments on real-world datasets show that LAAC outperforms existing baselines in diversity, novelty, and accuracy, while remaining robust on imbalanced data, effectively integrating LLM knowledge without expensive fine-tuning.
- Abstract(参考訳): レコメンデーションシステムでは、多様なユーザの好みを捉え、探索を促進するために多様性とノベルティが不可欠であるが、多くのシステムはクリック関連を優先している。
多様性を向上させるために強化学習(RL)が研究されているが、多くの場合、ユーザの関心に合わないランダムな探索に依存している。
LAAC(LLM-guided Adversarial Actor Critic)は,大規模言語モデル(LLM)を参照ポリシとして活用し,新たな項目を提案する手法である。
この方法は、アクターと批評家のネットワーク間の二段階の最適化としてトレーニングを定式化し、批評家は有望な新作アクションを選択的に選択し、アクターはLSM勧告を超えてポリシーを改善する。
信頼できないLLM提案の過大評価を緩和するために、よく見積もられたデータセットアクションに近い未探索項目に対する批判値をアンロックする正規化を適用する。
実世界のデータセットの実験では、LAACは多様性、ノベルティ、正確性において既存のベースラインよりも優れており、不均衡なデータに頑健であり、高価な微調整なしでLLM知識を効果的に統合している。
関連論文リスト
- Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Exploring the Impact of Large Language Models on Recommender Systems: An Extensive Review [2.780460221321639]
本稿では,リフォームレコメンダシステムにおける大規模言語モデルの重要性について述べる。
LLMは、言葉の複雑な解釈において、その適応性を示す、アイテムを推薦するのに非常に熟練している。
トランスフォーメーションの可能性にもかかわらず、入力プロンプトに対する感受性、時には誤解釈、予期せぬ推奨など、課題は続いている。
論文 参考訳(メタデータ) (2024-02-11T00:24:17Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。