論文の概要: SynthesizeMe! Inducing Persona-Guided Prompts for Personalized Reward Models in LLMs
- arxiv url: http://arxiv.org/abs/2506.05598v1
- Date: Thu, 05 Jun 2025 21:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.240683
- Title: SynthesizeMe! Inducing Persona-Guided Prompts for Personalized Reward Models in LLMs
- Title(参考訳): LLMにおけるパーソナライズリワードモデルのためのペルソナガイドプロンプトの導入
- Authors: Michael J Ryan, Omar Shaikh, Aditri Bhagirath, Daniel Frees, William Held, Diyi Yang,
- Abstract要約: 本稿では,パーソナライズされた報酬モデリングのためのユーザインタラクションから合成ユーザペルソナを誘導するアプローチであるSynthesizeMeを紹介する。
また、SynthesizeMeによるプロンプトの使用により、パーソナライズされたプロンプトがArenaで4.4%向上することを示した。
- 参考スコア(独自算出の注目度): 54.45812414534713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent calls for pluralistic alignment of Large Language Models (LLMs) encourage adapting models to diverse user preferences. However, most prior work on personalized reward models heavily rely on additional identity information, such as demographic details or a predefined set of preference categories. To this end, we introduce SynthesizeMe, an approach to inducing synthetic user personas from user interactions for personalized reward modeling. SynthesizeMe first generates and verifies reasoning to explain user preferences, then induces synthetic user personas from that reasoning, and finally filters to informative prior user interactions in order to build personalized prompts for a particular user. We show that using SynthesizeMe induced prompts improves personalized LLM-as-a-judge accuracy by 4.4% on Chatbot Arena. Combining SynthesizeMe derived prompts with a reward model achieves top performance on PersonalRewardBench: a new curation of user-stratified interactions with chatbots collected from 854 users of Chatbot Arena and PRISM.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の多元的アライメントが求められている。
しかし、パーソナライズされた報酬モデルに関する以前の研究のほとんどは、人口統計の詳細や事前定義された選好カテゴリなどの追加のアイデンティティ情報に大きく依存している。
そこで我々は,パーソナライズされた報酬モデリングのためのユーザインタラクションから合成ユーザペルソナを誘導するアプローチであるSynthesizeMeを紹介する。
SynthesizeMeはまず、ユーザの好みを説明するための推論を生成し検証し、その後、その推論から合成ユーザペルソナを誘導し、最後に、特定のユーザのためにパーソナライズされたプロンプトを構築するために、情報的な事前ユーザーインタラクションにフィルタする。
また,SynthesizeMeによるプロンプトの使用により,Chatbot ArenaではパーソナライズされたLCM-as-a-judgeの精度が4.4%向上した。
SynthesizeMe由来のプロンプトと報酬モデルを組み合わせることで、PersonalRewardBench上での最高のパフォーマンスを実現している。
関連論文リスト
- Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Language Model Personalization via Reward Factorization [38.30745045315918]
ユーザパーソナライズを可能にするためにRLHFを拡張するフレームワークを導入する。
ユーザ固有の報酬を,基本報酬関数の線形結合として表現する。
人間の評価では,デフォルトの GPT-4o 応答よりも 67% の勝利率が得られる。
論文 参考訳(メタデータ) (2025-03-08T23:41:20Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - LLMs + Persona-Plug = Personalized LLMs [41.60364110693824]
パーソナライゼーションは多くの言語タスクやアプリケーションにおいて重要な役割を担っている。
これにより、大きな言語モデル(LLM)を適用して、ユーザの好みに合わせてカスタマイズされたアウトプットを生成する、さまざまなパーソナライズされたアプローチが開発された。
そこで我々は,LLMモデルを提案する。軽量なプラグインユーザ埋め込みモジュールを用いて,過去の状況をすべてモデル化し,個人毎のユーザ固有の埋め込みを構築する。
論文 参考訳(メタデータ) (2024-09-18T11:54:45Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - One Chatbot Per Person: Creating Personalized Chatbots based on Implicit
User Profiles [31.432585994256375]
既存のパーソナライズされたアプローチは、いくつかのテキスト記述を明示的なユーザプロファイルとして組み込もうとした。
我々は、ユーザの履歴応答から一般ユーザプロファイルを構築するために、パーソナライズされた言語モデルを訓練する。
我々は、汎用語彙から単語を生成し、ユーザのパーソナライズされた語彙から1単語をコピーする2つのデコード戦略を融合するパーソナライズされたデコーダを設計する。
論文 参考訳(メタデータ) (2021-08-20T20:33:12Z) - Learning Implicit User Profiles for Personalized Retrieval-Based Chatbot [29.053654530024083]
IMPChatは、ユーザのパーソナライズされた言語スタイルとパーソナライズされた好みを個別にモデリングすることで、暗黙のユーザプロファイルを学習することを目的としている。
ユーザのパーソナライズされた言語スタイルを学習するために,ユーザの過去の応答を利用して,浅い言語から深い言語モデルを構築する。
回答候補をそれぞれパーソナライズされた言語スタイルとパーソナライズされた好みとでマッチングし、2つのマッチング信号を融合して最終的なランキングスコアを決定する。
論文 参考訳(メタデータ) (2021-08-18T02:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。