論文の概要: Reinforced Prompt Personalization for Recommendation with Large Language Models
- arxiv url: http://arxiv.org/abs/2407.17115v1
- Date: Wed, 24 Jul 2024 09:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:18:47.405669
- Title: Reinforced Prompt Personalization for Recommendation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたレコメンデーションのための強化プロンプトパーソナライゼーション
- Authors: Wenyu Mao, Jiancan Wu, Weijian Chen, Chongming Gao, Xiang Wang, Xiangnan He,
- Abstract要約: 本稿では,個々のユーザに対して個別のプロンプトをパーソナライズするインスタンスワイドプロンプトの概念を紹介する。
マルチエージェント強化学習(MARL)を用いたプロンプトにおける4つのパターンを最適化するための強化プロンプトパーソナライゼーション(RPP)を提案する。
従来のレコメンデータモデルよりもRCP/RPP+の方が優れていることを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 24.360796133889156
- License:
- Abstract: Designing effective prompts can empower LLMs to understand user preferences and provide recommendations by leveraging LLMs' intent comprehension and knowledge utilization capabilities. However, existing research predominantly concentrates on task-wise prompting, developing fixed prompt templates composed of four patterns (i.e., role-playing, history records, reasoning guidance, and output format) and applying them to all users for a given task. Although convenient, task-wise prompting overlooks individual user differences, leading to potential mismatches in capturing user preferences. To address it, we introduce the concept of instance-wise prompting to personalize discrete prompts for individual users and propose Reinforced Prompt Personalization (RPP) to optimize the four patterns in prompts using multi-agent reinforcement learning (MARL). To boost efficiency, RPP formulates prompt personalization as selecting optimal sentences holistically across the four patterns, rather than optimizing word-by-word. To ensure the quality of prompts, RPP meticulously crafts diverse expressions for each of the four patterns, considering multiple analytical perspectives for specific recommendation tasks. In addition to RPP, our proposal of RPP+ aims to enhance the scalability of action space by dynamically refining actions with LLMs throughout the iterative process. We evaluate the effectiveness of RPP/RPP+ in ranking tasks over various datasets. Experimental results demonstrate the superiority of RPP/RPP+ over traditional recommender models, few-shot methods, and other prompt-based methods, underscoring the significance of instance-wise prompting for LLMs in recommendation tasks and validating the effectiveness of RPP/RPP+. Our code is available at https://github.com/maowenyu-11/RPP.
- Abstract(参考訳): 効果的なプロンプトを設計することで、LLMがユーザの好みを理解し、LLMの意図理解と知識利用能力を活用することでレコメンデーションを提供することができる。
しかし、既存の研究は主にタスクのプロンプトに焦点を合わせ、4つのパターン(ロールプレイング、履歴記録、推論ガイダンス、出力フォーマット)からなる固定されたプロンプトテンプレートを開発し、与えられたタスクに対してそれらを適用している。
便利だが、タスクワイドのプロンプトは個々のユーザー差を見落とし、ユーザーの好みを捉えてしまう可能性がある。
そこで本研究では,個々のユーザに対して個別のプロンプトをパーソナライズするインスタンスワイドプロンプトの概念を導入し,マルチエージェント強化学習(MARL)を用いて4つのプロンプトのパターンを最適化するReinforced Prompt Personalization(RPP)を提案する。
効率を高めるために、RCPは、単語ごとの最適化よりも、四つのパターンにまたがる最適な文を選択することで、パーソナライズを促進させる。
プロンプトの質を確保するため、RPPは特定のレコメンデーションタスクに対する複数の分析的視点を考慮して、4つのパターンそれぞれに対して様々な表現を慎重に作成する。
RPP に加えて,本提案では,反復プロセスを通じて LLM の動作を動的に精錬することにより,動作空間のスケーラビリティを向上させることを目的としている。
各種データセット上でのランキングタスクにおけるRCP/RPP+の有効性を評価する。
RPP/RPP+ は従来のレコメンデータモデルや少数ショット法,その他のプロンプトベースの手法よりも優れており,レコメンデーションタスクにおける LLM のインスタンスワイズプロンプトの重要性と RPP/RPP+ の有効性を実証している。
私たちのコードはhttps://github.com/maowenyu-11/RPP.comで公開されています。
関連論文リスト
- A Prompting-Based Representation Learning Method for Recommendation with Large Language Models [2.1161973970603998]
本稿では,Recommender SystemsにおけるLarge Language Models(LLM)の言語能力を高めるために,Prompting-based Representation Learning Method for Recommendation(P4R)を紹介する。
P4Rフレームワークでは、パーソナライズされたアイテムプロファイルを作成するためにLSMプロンプト戦略を利用する。
評価では、P4Rと最先端のRecommenderモデルを比較し、プロンプトベースのプロファイル生成の品質を評価する。
論文 参考訳(メタデータ) (2024-09-25T07:06:14Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Preference Distillation for Personalized Generative Recommendation [11.27949757550442]
本稿では,PErson Alized PrOmpt Distillation (PeaPOD)アプローチを提案する。
現実世界におけるユーザの嗜好の複雑さを考えると,ユーザの興味に基づいて動的に重み付けされる学習可能なプロンプトの共有集合を維持している。
実世界の3つのデータセットに対する実験結果から,PiaPODモデルがシーケンシャルレコメンデーション,トップnレコメンデーション,説明生成タスクに与える影響が示された。
論文 参考訳(メタデータ) (2024-07-06T09:58:58Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。
FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。
5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文 参考訳(メタデータ) (2024-02-19T03:56:44Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Dialogue for Prompting: a Policy-Gradient-Based Discrete Prompt
Generation for Few-shot Learning [14.200398093260118]
事前の離散的なプロンプト最適化法は、基本プロンプトセットを設計し、高品質なプロンプトを特定するために専門家の知識を必要とする。
既存の連続的なプロンプト最適化手法は、理想的なプロンプトを学習することで性能を向上させる。
数ショット設定でタスク上でのPLMパラメータサイズのわずか0.67%のポリシネットワークをトレーニングすることにより、$DPO$は4つのオープンソースデータセットで1.52%の精度で最先端(SOTA)メソッドを上回ります。
論文 参考訳(メタデータ) (2023-08-14T16:58:50Z) - Recommendation as Instruction Following: A Large Language Model
Empowered Recommendation Approach [83.62750225073341]
我々は、大規模言語モデル(LLM)による指示としてレコメンデーションを考える。
まず、ユーザの好み、意図、タスクフォーム、コンテキストを自然言語で記述するための一般的な命令形式を設計する。
そして、39の命令テンプレートを手動で設計し、大量のユーザ個人化された命令データを自動的に生成する。
論文 参考訳(メタデータ) (2023-05-11T17:39:07Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。