論文の概要: Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations
- arxiv url: http://arxiv.org/abs/2507.21274v1
- Date: Mon, 28 Jul 2025 19:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.248937
- Title: Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations
- Title(参考訳): 大規模言語モデルによる多変量および新しい勧告のための強化強化学習
- Authors: Jiin Woo, Alireza Bagheri Garakani, Tianchen Zhou, Zhishen Huang, Yan Gao,
- Abstract要約: 本稿では,LAAC (LLM-guided Adversarial Actor Critic) を提案する。
LAACは、不均衡なデータに頑健でありながら、多様性、ノベルティ、正確性において既存のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 6.949170757786365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recommendation systems, diversity and novelty are essential for capturing varied user preferences and encouraging exploration, yet many systems prioritize click relevance. While reinforcement learning (RL) has been explored to improve diversity, it often depends on random exploration that may not align with user interests. We propose LAAC (LLM-guided Adversarial Actor Critic), a novel method that leverages large language models (LLMs) as reference policies to suggest novel items, while training a lightweight policy to refine these suggestions using system-specific data. The method formulates training as a bilevel optimization between actor and critic networks, enabling the critic to selectively favor promising novel actions and the actor to improve its policy beyond LLM recommendations. To mitigate overestimation of unreliable LLM suggestions, we apply regularization that anchors critic values for unexplored items close to well-estimated dataset actions. Experiments on real-world datasets show that LAAC outperforms existing baselines in diversity, novelty, and accuracy, while remaining robust on imbalanced data, effectively integrating LLM knowledge without expensive fine-tuning.
- Abstract(参考訳): レコメンデーションシステムでは、多様なユーザの好みを捉え、探索を促進するために多様性とノベルティが不可欠であるが、多くのシステムはクリック関連を優先している。
多様性を向上させるために強化学習(RL)が研究されているが、多くの場合、ユーザの関心に合わないランダムな探索に依存している。
LAAC(LLM-guided Adversarial Actor Critic)は,大規模言語モデル(LLM)を参照ポリシとして活用し,新たな項目を提案する手法である。
この方法は、アクターと批評家のネットワーク間の二段階の最適化としてトレーニングを定式化し、批評家は有望な新作アクションを選択的に選択し、アクターはLSM勧告を超えてポリシーを改善する。
信頼できないLLM提案の過大評価を緩和するために、よく見積もられたデータセットアクションに近い未探索項目に対する批判値をアンロックする正規化を適用する。
実世界のデータセットの実験では、LAACは多様性、ノベルティ、正確性において既存のベースラインよりも優れており、不均衡なデータに頑健であり、高価な微調整なしでLLM知識を効果的に統合している。
関連論文リスト
- Evaluating Position Bias in Large Language Model Recommendations [3.430780143519032]
大規模言語モデル(LLM)は、リコメンデーションタスクのための汎用ツールとして、ますます研究されている。
LLMをベースとした推薦モデルは位置バイアスに悩まされ、その場合、プロンプト内の候補項目の順序がLLMの推薦に不均等に影響を及ぼす可能性がある。
本稿では,LLMレコメンデーションモデルにおける位置バイアスを軽減するための新たなプロンプト戦略であるRightingをIterative Selection経由で導入する。
論文 参考訳(メタデータ) (2025-08-04T03:30:26Z) - DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-05-22T15:49:38Z) - User Feedback Alignment for LLM-powered Exploration in Large-scale Recommendation Systems [26.652050105571206]
大規模なレコメンデーションシステムでは,ユーザエクスペリエンスを,確立された嗜好を超えて拡張する行為であるExplorationが課題となっている。
本稿では,階層型計画とLLM推論時間スケーリングを組み合わせた新しい手法を提案する。
ユーザ満足度(ウォッチアクティビティとアクティブユーザ数で測定)と探索多様性の両面で有意な向上を示した。
論文 参考訳(メタデータ) (2025-04-07T21:44:12Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Real-Time Personalization for LLM-based Recommendation with Customized In-Context Learning [57.28766250993726]
この研究は、モデル更新なしに動的なユーザ関心に適応することを検討する。
既存のLarge Language Model (LLM)ベースのレコメンダは、レコメンデーションチューニング中にコンテキスト内学習能力を失うことが多い。
本稿では,レコメンデーション固有のインコンテキスト学習をリアルタイムレコメンデーションにカスタマイズするRecICLを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:48:36Z) - MMREC: LLM Based Multi-Modal Recommender System [2.3113916776957635]
本稿では,Large Language Models(LLM)とディープラーニング技術を活用して,レコメンデータシステムを強化する新しい手法を提案する。
提案フレームワークは,マルチモーダル情報処理を取り入れたレコメンデーションの精度と妥当性を,統一された潜在空間表現を用いて向上することを目的としている。
論文 参考訳(メタデータ) (2024-08-08T04:31:29Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Exploring the Impact of Large Language Models on Recommender Systems: An Extensive Review [2.780460221321639]
本稿では,リフォームレコメンダシステムにおける大規模言語モデルの重要性について述べる。
LLMは、言葉の複雑な解釈において、その適応性を示す、アイテムを推薦するのに非常に熟練している。
トランスフォーメーションの可能性にもかかわらず、入力プロンプトに対する感受性、時には誤解釈、予期せぬ推奨など、課題は続いている。
論文 参考訳(メタデータ) (2024-02-11T00:24:17Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。