論文の概要: Shielded RecRL: Explanation Generation for Recommender Systems without Ranking Degradation
- arxiv url: http://arxiv.org/abs/2601.03608v1
- Date: Tue, 14 Oct 2025 16:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.503234
- Title: Shielded RecRL: Explanation Generation for Recommender Systems without Ranking Degradation
- Title(参考訳): Shielded RecRL: ランク付け劣化のないレコメンダシステムの説明生成
- Authors: Ansh Tiwari, Ayush Chauhan,
- Abstract要約: Shielded RecRLは、レコメンダシステムのためのパーソナライズされた説明を生成するための強化学習アプローチである。
以上の結果から,Shieled RecRLは,コアレコメンデーションの精度を低下させることなく,リッチでパーソナライズされた説明を通じて,レコメンデーションのユーザ側の側面を強化することが示唆された。
- 参考スコア(独自算出の注目度): 0.17188280334580197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Shielded RecRL, a reinforcement learning approach to generate personalized explanations for recommender systems without sacrificing the system's original ranking performance. Unlike prior RLHF-based recommender methods that directly optimize item rankings, our two-tower architecture keeps the recommender's ranking model intact while a language model learns to produce helpful explanations. We design a composite reward signal combining explanation length, content relevance, and coherence, and apply proximal policy optimization (PPO) with a KL-divergence constraint to fine-tune a large language model with only 0.4% of its parameters trainable via LoRA adapters. In experiments on an Amazon Books dataset (approximately 50K interactions in the fantasy and romance genres), Shielded RecRL improved the relative click-through rate (CTR) by 22.5% (1.225x over baseline) while keeping the recommender's item-ranking behavior virtually unchanged. An extensive ablation study confirms that our gradient shielding strategy and reward design effectively balance explanation quality and policy drift. Our results demonstrate that Shielded RecRL enhances user-facing aspects of recommendations through rich, personalized explanations without degrading core recommendation accuracy.
- Abstract(参考訳): システム本来のランキング性能を犠牲にすることなく,レコメンデータシステムに対してパーソナライズされた説明を生成するための強化学習手法であるShield RecRLを導入する。
項目ランキングを直接最適化する従来のRLHFベースのレコメンダ手法とは異なり、言語モデルが有用な説明を生成することを学習している間、我々の2towerアーキテクチャはレコメンダのランキングモデルをそのまま維持する。
我々は、説明長、内容妥当性、コヒーレンスを組み合わせた複合報酬信号の設計を行い、近似ポリシー最適化(PPO)とKL分割制約を適用して、LoRAアダプタを介してトレーニング可能なパラメータのわずか0.4%の大規模言語モデルを微調整する。
Amazon Booksデータセット(ファンタジーやロマンスジャンルで約50Kのインタラクション)の実験において、Shieled RecRLは相対クリックスルーレート(CTR)を22.5%改善した。
広範囲にわたるアブレーション研究により、我々の勾配遮蔽戦略と報酬設計は、説明の質と政策のドリフトを効果的にバランスさせることが確認された。
以上の結果から,Shieled RecRLは,コアレコメンデーションの精度を低下させることなく,リッチでパーソナライズされた説明を通じて,レコメンデーションのユーザ側の側面を強化することが示唆された。
関連論文リスト
- End-to-End Personalization: Unifying Recommender Systems with Large Language Models [0.0]
グラフ注意ネットワーク(GAT)と大言語モデル(LLM)を組み合わせた新しいハイブリッドレコメンデーションフレームワークを提案する。
LLMは、タイトル、ジャンル、概要などのメタデータに基づいて意味的に意味のあるプロファイルを生成することによって、ユーザーとアイテムの表現を豊かにするために最初に使用される。
MovieLens 100kと1Mを含むベンチマークデータセットでモデルを評価し、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-02T22:46:50Z) - R$^2$ec: Towards Large Recommender Models with Reasoning [59.32598867813266]
R$2$ecは、本質的な推論能力を持つ統一された大型レコメンデータモデルである。
R$2$ecは、推論チェーン生成と効率的なアイテム予測の両方を単一のモデルでサポートするデュアルヘッドアーキテクチャを導入している。
注釈付き推論データの欠如を克服するため、強化学習フレームワークであるRecPOを設計する。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - On a Scale-Invariant Approach to Bundle Recommendations in Candy Crush Saga [0.0]
本稿では,モバイルゲームシナリオにおけるアイテムレコメンデーション作成における注意モデルの利用について述べる。
この手法はその後、Candy Crush Sagaのバンドルレコメンデーションに適用される。
提案手法は,クリック率を30%,テイクレートを40%以上向上させ,ユーザのエンゲージメントを30%向上させることを示した。
論文 参考訳(メタデータ) (2024-08-13T10:42:32Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Debiasing Learning for Membership Inference Attacks Against Recommender
Systems [79.48353547307887]
学習されたレコメンデータシステムは、トレーニングデータに関する情報を不注意に漏洩させ、プライバシー侵害につながる可能性がある。
我々は,推薦者システムによるプライバシー上の脅威を,会員推定のレンズを通して調査する。
本稿では,4つの主要コンポーネントを持つリコメンダシステム(DL-MIA)フレームワークに対する,メンバシップ推論攻撃に対するバイアス学習を提案する。
論文 参考訳(メタデータ) (2022-06-24T17:57:34Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。