Fugu-MT 論文翻訳(概要): Reinforced Prompt Personalization for Recommendation with Large Language Models

論文の概要: Reinforced Prompt Personalization for Recommendation with Large Language Models

arxiv url: http://arxiv.org/abs/2407.17115v2
Date: Mon, 03 Feb 2025 15:18:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.124434
Title: Reinforced Prompt Personalization for Recommendation with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたレコメンデーションのための強化プロンプトパーソナライゼーション
Authors: Wenyu Mao, Jiancan Wu, Weijian Chen, Chongming Gao, Xiang Wang, Xiangnan He,
Abstract要約: 本稿では,個々のユーザに対して個別のプロンプトをパーソナライズすることを目的とした,インスタンスワイドプロンプトの概念を紹介する。効率と品質を向上させるため、RPPは単語ごとの単語を検索するのではなく、文レベルでプロンプトをパーソナライズする。
参考スコア（独自算出の注目度）: 24.360796133889156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Designing effective prompts can empower LLMs to understand user preferences and provide recommendations with intent comprehension and knowledge utilization capabilities. Nevertheless, recent studies predominantly concentrate on task-wise prompting, developing fixed prompt templates shared across all users in a given recommendation task (e.g., rating or ranking). Although convenient, task-wise prompting overlooks individual user differences, leading to inaccurate analysis of user interests. In this work, we introduce the concept of instance-wise prompting, aiming at personalizing discrete prompts for individual users. Toward this end, we propose Reinforced Prompt Personalization (RPP) to realize it automatically. To improve efficiency and quality, RPP personalizes prompts at the sentence level rather than searching in the vast vocabulary word-by-word. Specifically, RPP breaks down the prompt into four patterns, tailoring patterns based on multi-agent and combining them. Then the personalized prompts interact with LLMs (environment) iteratively, to boost LLMs' recommending performance (reward). In addition to RPP, to improve the scalability of action space, our proposal of RPP+ dynamically refines the selected actions with LLMs throughout the iterative process. Extensive experiments on various datasets demonstrate the superiority of RPP/RPP+ over traditional recommender models, few-shot methods, and other prompt-based methods, underscoring the significance of instance-wise prompting in LLMs for recommendation. Our code is available at https://github.com/maowenyu-11/RPP.
Abstract（参考訳）: 効果的なプロンプトを設計することで、LCMはユーザの好みを理解し、意図的理解と知識利用能力を備えたレコメンデーションを提供することができる。それにもかかわらず、最近の研究は主にタスクワイド・プロンプトに焦点を合わせ、特定のレコメンデーションタスク(例えば、評価やランキング)において、すべてのユーザ間で共有される固定プロンプトテンプレートを開発する。便利ではあるが、タスクワイドのプロンプトは個々のユーザ差を見落とし、ユーザの興味を不正確な分析に導く。本研究では,個々のユーザに対して個別のプロンプトをパーソナライズすることを目的とした,インスタンスワイドプロンプトの概念を紹介する。そこで我々はReinforced Prompt Personalization (RPP)を提案する。効率と品質を向上させるため、RPPは単語ごとの単語を検索するのではなく、文レベルでプロンプトをパーソナライズする。具体的には、RCPはプロンプトを4つのパターンに分解し、マルチエージェントに基づいてパターンを調整し、それらを組み合わせる。次に、パーソナライズされたプロンプトがLLM(環境)と反復的に対話し、LLMの推奨パフォーマンス(リワード)を高める。動作空間のスケーラビリティを向上させるため, RPP+ の提案では, 繰り返し処理を通して LLM による選択された動作を動的に洗練する。様々なデータセットに対する大規模な実験は、従来のレコメンデータモデル、少数ショット法、その他のプロンプトベースの手法よりもRCP/RPP+の方が優れていることを示した。私たちのコードはhttps://github.com/maowenyu-11/RPP.comで公開されています。

関連論文リスト

UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文参考訳（メタデータ） (2025-02-26T14:34:00Z)
A Prompting-Based Representation Learning Method for Recommendation with Large Language Models [2.1161973970603998]
本稿では,Recommender SystemsにおけるLarge Language Models(LLM)の言語能力を高めるために,Prompting-based Representation Learning Method for Recommendation(P4R)を紹介する。 P4Rフレームワークでは、パーソナライズされたアイテムプロファイルを作成するためにLSMプロンプト戦略を利用する。評価では、P4Rと最先端のRecommenderモデルを比較し、プロンプトベースのプロファイル生成の品質を評価する。
論文参考訳（メタデータ） (2024-09-25T07:06:14Z)
Laser: Parameter-Efficient LLM Bi-Tuning for Sequential Recommendation with Collaborative Information [76.62949982303532]
協調情報を用いた逐次レコメンデーションのためのパラメータ効率の高い大規模言語モデルバイチューニングフレームワーク(Laser)を提案する。我々のレーザーでは,プレフィックスを用いてユーザと協調的な情報を取り込み,LLMをレコメンデーションタスクに適応させ,サフィックスは言語空間からレコメンデーションスペースへのLLMの出力埋め込みをリコメンデーション項目レコメンデーションスペースに変換する。 M-Formerは軽量なMoEベースのクエリ変換器で、クエリ専門家のセットを使用して、凍結IDベースのシーケンシャルレコメンデータシステムによって符号化された多様なユーザ固有の協調情報を統合する。
論文参考訳（メタデータ） (2024-09-03T04:55:03Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Preference Distillation for Personalized Generative Recommendation [11.27949757550442]
本稿では,PErson Alized PrOmpt Distillation (PeaPOD)アプローチを提案する。現実世界におけるユーザの嗜好の複雑さを考えると,ユーザの興味に基づいて動的に重み付けされる学習可能なプロンプトの共有集合を維持している。実世界の3つのデータセットに対する実験結果から,PiaPODモデルがシーケンシャルレコメンデーション,トップnレコメンデーション,説明生成タスクに与える影響が示された。
論文参考訳（メタデータ） (2024-07-06T09:58:58Z)
MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文参考訳（メタデータ） (2024-07-04T18:39:59Z)
Few-shot Personalization of LLMs with Mis-aligned Responses [40.0349773257245]
本稿では,大規模言語モデル(LLM)のパーソナライズのための新しいアプローチを提案する。私たちのキーとなるアイデアは、LSMを用いてプロンプトを段階的に改善することで、各ユーザに対してパーソナライズされたプロンプトのセットを学ぶことです。即時改善の反復過程において,LLMによる不整合応答の文脈を取り入れた。
論文参考訳（メタデータ） (2024-06-26T18:29:12Z)
Selective Prompting Tuning for Personalized Conversations with LLMs [31.28284591597932]
textbfSelective textbfPrompt textbfTuning (SPT)を提案する。 SPTは、他の重要なパフォーマンス指標の改善とともに、応答の多様性を最大90%向上させる。
論文参考訳（メタデータ） (2024-06-26T09:03:52Z)
Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文参考訳（メタデータ） (2024-05-27T16:49:29Z)
Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文参考訳（メタデータ） (2024-04-01T12:19:08Z)
FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。 FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。 5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文参考訳（メタデータ） (2024-02-19T03:56:44Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Dialogue for Prompting: a Policy-Gradient-Based Discrete Prompt Generation for Few-shot Learning [14.200398093260118]
事前の離散的なプロンプト最適化法は、基本プロンプトセットを設計し、高品質なプロンプトを特定するために専門家の知識を必要とする。既存の連続的なプロンプト最適化手法は、理想的なプロンプトを学習することで性能を向上させる。数ショット設定でタスク上でのPLMパラメータサイズのわずか0.67%のポリシネットワークをトレーニングすることにより、$DPO$は4つのオープンソースデータセットで1.52%の精度で最先端(SOTA)メソッドを上回ります。
論文参考訳（メタデータ） (2023-08-14T16:58:50Z)
Recommendation as Instruction Following: A Large Language Model Empowered Recommendation Approach [83.62750225073341]
我々は、大規模言語モデル(LLM)による指示としてレコメンデーションを考える。まず、ユーザの好み、意図、タスクフォーム、コンテキストを自然言語で記述するための一般的な命令形式を設計する。そして、39の命令テンプレートを手動で設計し、大量のユーザ個人化された命令データを自動的に生成する。
論文参考訳（メタデータ） (2023-05-11T17:39:07Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。