論文の概要: RLHF Fine-Tuning of LLMs for Alignment with Implicit User Feedback in Conversational Recommenders
- arxiv url: http://arxiv.org/abs/2508.05289v1
- Date: Thu, 07 Aug 2025 11:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.838352
- Title: RLHF Fine-Tuning of LLMs for Alignment with Implicit User Feedback in Conversational Recommenders
- Title(参考訳): 会話レコメンデーションにおけるユーザフィードバックを伴わないアライメントのためのLLMのRLHF微調整
- Authors: Zhongheng Yang, Aijia Sun, Yushang Zhao, Yinuo Yang, Dannier Li, Chengrui Zhou,
- Abstract要約: マルチターンレコメンデーションコンテキストにおいて,インプリッドユーザフィードバック(IUF)を最大化するために,ヒューマンフィードバック強化学習(RLHF)を用いた微調整ソリューションを提案する。
RLHF-fine-tuned モデルでは, (arrow-zero-cmwrquca-teja-falset ensuite 2Round group-deca States penalty と比較して, 推薦精度, コヒーレンス, ユーザ満足度が向上することを示した。
- 参考スコア(独自算出の注目度): 0.8246494848934447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational recommender systems (CRS) based on Large Language Models (LLMs) need to constantly be aligned to the user preferences to provide satisfying and context-relevant item recommendations. The traditional supervised fine-tuning cannot capture the implicit feedback signal, e.g., dwell time, sentiment polarity, or engagement patterns. In this paper, we share a fine-tuning solution using human feedback reinforcement learning (RLHF) to maximize implied user feedback (IUF) in a multi-turn recommendation context. We specify a reward model $R_{\phi}$ learnt on weakly-labelled engagement information and maximize user-centric utility by optimizing the foundational LLM M_{\theta} through a proximal policy optimization (PPO) approach. The architecture models conversational state transitions $s_t \to a_t \to s_{t +1}$, where the action $a_t$ is associated with LLM-generated item suggestions only on condition of conversation history in the past. The evaluation across synthetic and real-world datasets (e.g.REDIAL, OpenDialKG) demonstrates that our RLHF-fine-tuned models can perform better in terms of top-$k$ recommendation accuracy, coherence, and user satisfaction compared to (arrow-zero-cmwrquca-teja-falset ensuite 2Round group-deca States penalty give up This paper shows that implicit signal alignment can be efficient in achieving scalable and user-adaptive design of CRS.
- Abstract(参考訳): 言語モデル(LLM)に基づく会話レコメンデータシステム(CRS)は、満足度とコンテキスト関連項目のレコメンデーションを提供するために、常にユーザの好みに合わせる必要がある。
従来の教師付き微調整では、暗黙のフィードバック信号(例えば、居住時間、感情極性、エンゲージメントパターン)をキャプチャすることはできない。
本稿では、人間フィードバック強化学習(RLHF)を用いて、インプリッドユーザフィードバック(IUF)をマルチターンレコメンデーションコンテキストで最大化するための微調整ソリューションを共有する。
本稿では,LLM M_{\theta} を近似ポリシ最適化 (PPO) アプローチにより最適化することにより,弱ラベル付きエンゲージメント情報から学習した報酬モデル $R_{\phi}$ とユーザ中心のユーティリティを最大化する。
アーキテクチャモデルでは、会話状態が$s_t \to a_t \to s_{t +1}$に遷移する。
合成および実世界のデータセット(REDIAL、OpenDialKGなど)による評価は、我々のRLHF-fine-tunedモデルは、(arrow-zero-cmwrquca-teja-falset ensuite 2Round group-deca States penalty と比較して、トップ$k$の推奨精度、コヒーレンス、ユーザ満足度において、CRSのスケーラブルでユーザ適応的な設計を実現する上で、暗黙の信号アライメントが効率的であることを示す。
関連論文リスト
- LLM2Rec: Large Language Models Are Powerful Embedding Models for Sequential Recommendation [49.78419076215196]
シーケンスレコメンデーションは、類似したユーザやアイテムの履歴行動から協調フィルタリング(CF)信号をモデル化することで、ユーザの将来のインタラクションを予測することを目的としている。
従来のシーケンシャルなレコメンダは、高次の共起パターンを通じてCF信号をキャプチャするIDベースの埋め込みに依存している。
大規模言語モデル(LLM)の最近の進歩は、テキスト記述からアイテム表現を導出するテキストベースのレコメンデーションアプローチを動機付けている。
理想的な埋め込みモデルは、ドメイン内およびドメイン外のレコメンデーションパフォーマンスを改善するために、CF信号とリッチなセマンティック表現をシームレスに統合すべきである、と我々は主張する。
論文 参考訳(メタデータ) (2025-06-16T13:27:06Z) - $\text{R}^2\text{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。
RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。
さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - Empowering Retrieval-based Conversational Recommendation with Contrasting User Preferences [12.249992789091415]
我々は、Contrasting user pReference expAnsion and Learning (CORAL)と呼ばれる対話型推薦モデルを提案する。
コーラルは、ユーザの隠れた好みを、コントラストの好み拡張によって抽出する。
対照的な選好を明確に区別し、選好認識学習を通じてレコメンデーションプロセスに活用する。
論文 参考訳(メタデータ) (2025-03-27T21:45:49Z) - RecLM: Recommendation Instruction Tuning [17.780484832381994]
本稿では,大規模言語モデルと協調フィルタリングをシームレスに統合するモデル非依存の指導訓練パラダイムを提案する。
提案した$underlineRec$ommendationは、慎重に設計された強化学習報酬関数により、ユーザの好みの多様性を捕捉する。
論文 参考訳(メタデータ) (2024-12-26T17:51:54Z) - RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。
LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。
レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。
既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文 参考訳(メタデータ) (2024-06-27T01:37:57Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Vague Preference Policy Learning for Conversational Recommendation [48.868921530958666]
会話レコメンデーションシステムは通常、ユーザが明確な好みを持っていると仮定し、潜在的に過度なフィルタリングにつながる。
本稿では,Vag Preference Multi-round Conversational Recommendation (VPMCR) シナリオを紹介する。
我々の研究は、ユーザの内在する曖昧さと相対的な意思決定プロセスを調整し、現実の応用性を向上させることでCRSを前進させます。
論文 参考訳(メタデータ) (2023-06-07T14:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。