論文の概要: Reinforced Prompt Personalization for Recommendation with Large Language Models
- arxiv url: http://arxiv.org/abs/2407.17115v1
- Date: Wed, 24 Jul 2024 09:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:18:47.405669
- Title: Reinforced Prompt Personalization for Recommendation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたレコメンデーションのための強化プロンプトパーソナライゼーション
- Authors: Wenyu Mao, Jiancan Wu, Weijian Chen, Chongming Gao, Xiang Wang, Xiangnan He,
- Abstract要約: 本稿では,個々のユーザに対して個別のプロンプトをパーソナライズするインスタンスワイドプロンプトの概念を紹介する。
マルチエージェント強化学習(MARL)を用いたプロンプトにおける4つのパターンを最適化するための強化プロンプトパーソナライゼーション(RPP)を提案する。
従来のレコメンデータモデルよりもRCP/RPP+の方が優れていることを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 24.360796133889156
- License:
- Abstract: Designing effective prompts can empower LLMs to understand user preferences and provide recommendations by leveraging LLMs' intent comprehension and knowledge utilization capabilities. However, existing research predominantly concentrates on task-wise prompting, developing fixed prompt templates composed of four patterns (i.e., role-playing, history records, reasoning guidance, and output format) and applying them to all users for a given task. Although convenient, task-wise prompting overlooks individual user differences, leading to potential mismatches in capturing user preferences. To address it, we introduce the concept of instance-wise prompting to personalize discrete prompts for individual users and propose Reinforced Prompt Personalization (RPP) to optimize the four patterns in prompts using multi-agent reinforcement learning (MARL). To boost efficiency, RPP formulates prompt personalization as selecting optimal sentences holistically across the four patterns, rather than optimizing word-by-word. To ensure the quality of prompts, RPP meticulously crafts diverse expressions for each of the four patterns, considering multiple analytical perspectives for specific recommendation tasks. In addition to RPP, our proposal of RPP+ aims to enhance the scalability of action space by dynamically refining actions with LLMs throughout the iterative process. We evaluate the effectiveness of RPP/RPP+ in ranking tasks over various datasets. Experimental results demonstrate the superiority of RPP/RPP+ over traditional recommender models, few-shot methods, and other prompt-based methods, underscoring the significance of instance-wise prompting for LLMs in recommendation tasks and validating the effectiveness of RPP/RPP+. Our code is available at https://github.com/maowenyu-11/RPP.
- Abstract(参考訳): 効果的なプロンプトを設計することで、LLMがユーザの好みを理解し、LLMの意図理解と知識利用能力を活用することでレコメンデーションを提供することができる。
しかし、既存の研究は主にタスクのプロンプトに焦点を合わせ、4つのパターン(ロールプレイング、履歴記録、推論ガイダンス、出力フォーマット)からなる固定されたプロンプトテンプレートを開発し、与えられたタスクに対してそれらを適用している。
便利だが、タスクワイドのプロンプトは個々のユーザー差を見落とし、ユーザーの好みを捉えてしまう可能性がある。
そこで本研究では,個々のユーザに対して個別のプロンプトをパーソナライズするインスタンスワイドプロンプトの概念を導入し,マルチエージェント強化学習(MARL)を用いて4つのプロンプトのパターンを最適化するReinforced Prompt Personalization(RPP)を提案する。
効率を高めるために、RCPは、単語ごとの最適化よりも、四つのパターンにまたがる最適な文を選択することで、パーソナライズを促進させる。
プロンプトの質を確保するため、RPPは特定のレコメンデーションタスクに対する複数の分析的視点を考慮して、4つのパターンそれぞれに対して様々な表現を慎重に作成する。
RPP に加えて,本提案では,反復プロセスを通じて LLM の動作を動的に精錬することにより,動作空間のスケーラビリティを向上させることを目的としている。
各種データセット上でのランキングタスクにおけるRCP/RPP+の有効性を評価する。
RPP/RPP+ は従来のレコメンデータモデルや少数ショット法,その他のプロンプトベースの手法よりも優れており,レコメンデーションタスクにおける LLM のインスタンスワイズプロンプトの重要性と RPP/RPP+ の有効性を実証している。
私たちのコードはhttps://github.com/maowenyu-11/RPP.comで公開されています。
関連論文リスト
- Laser: Parameter-Efficient LLM Bi-Tuning for Sequential Recommendation with Collaborative Information [76.62949982303532]
協調情報を用いた逐次レコメンデーションのためのパラメータ効率の高い大規模言語モデルバイチューニングフレームワーク(Laser)を提案する。
我々のレーザーでは,プレフィックスを用いてユーザと協調的な情報を取り込み,LLMをレコメンデーションタスクに適応させ,サフィックスは言語空間からレコメンデーションスペースへのLLMの出力埋め込みをリコメンデーション項目レコメンデーションスペースに変換する。
M-Formerは軽量なMoEベースのクエリ変換器で、クエリ専門家のセットを使用して、凍結IDベースのシーケンシャルレコメンデータシステムによって符号化された多様なユーザ固有の協調情報を統合する。
論文 参考訳(メタデータ) (2024-09-03T04:55:03Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - PeaPOD: Personalized Prompt Distillation for Generative Recommendation [11.27949757550442]
本稿では,PErson Alized PrOmpt Distillation (PeaPOD)アプローチを提案する。
現実世界におけるユーザの嗜好の複雑さを考えると,ユーザの興味に基づいて動的に重み付けされる学習可能なプロンプトの共有集合を維持している。
実世界の3つのデータセットに対する実験結果から,PiaPODモデルがシーケンシャルレコメンデーション,トップnレコメンデーション,説明生成タスクに与える影響が示された。
論文 参考訳(メタデータ) (2024-07-06T09:58:58Z) - Few-shot Personalization of LLMs with Mis-aligned Responses [40.0349773257245]
本稿では,大規模言語モデル(LLM)のパーソナライズのための新しいアプローチを提案する。
私たちのキーとなるアイデアは、LSMを用いてプロンプトを段階的に改善することで、各ユーザに対してパーソナライズされたプロンプトのセットを学ぶことです。
即時改善の反復過程において,LLMによる不整合応答の文脈を取り入れた。
論文 参考訳(メタデータ) (2024-06-26T18:29:12Z) - Selective Prompting Tuning for Personalized Conversations with LLMs [31.28284591597932]
textbfSelective textbfPrompt textbfTuning (SPT)を提案する。
SPTは、他の重要なパフォーマンス指標の改善とともに、応答の多様性を最大90%向上させる。
論文 参考訳(メタデータ) (2024-06-26T09:03:52Z) - Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - Doing Personal LAPS: LLM-Augmented Dialogue Construction for Personalized Multi-Session Conversational Search [9.243535345193711]
提案手法は,大規模言語モデルを用いて,個人化された対話を生成するために,一人の人間労働者を誘導する。
LAPSは大規模、人書き、マルチセッション、マルチドメインの会話を収集できる。
その結果,抽出された嗜好を用いて明示的に生成した応答は,ユーザの実際の嗜好と一致していることがわかった。
論文 参考訳(メタデータ) (2024-05-06T13:53:03Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Recommendation as Instruction Following: A Large Language Model
Empowered Recommendation Approach [83.62750225073341]
我々は、大規模言語モデル(LLM)による指示としてレコメンデーションを考える。
まず、ユーザの好み、意図、タスクフォーム、コンテキストを自然言語で記述するための一般的な命令形式を設計する。
そして、39の命令テンプレートを手動で設計し、大量のユーザ個人化された命令データを自動的に生成する。
論文 参考訳(メタデータ) (2023-05-11T17:39:07Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。