論文の概要: Learning Pluralistic User Preferences through Reinforcement Learning Fine-tuned Summaries
- arxiv url: http://arxiv.org/abs/2507.13579v1
- Date: Thu, 17 Jul 2025 23:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.154851
- Title: Learning Pluralistic User Preferences through Reinforcement Learning Fine-tuned Summaries
- Title(参考訳): 強化学習による多言語的ユーザ嗜好の学習
- Authors: Hyunji Nam, Yanming Wan, Mickel Liu, Jianxun Lian, Natasha Jaques,
- Abstract要約: 本稿では,各ユーザの好み,特徴,過去の会話をテキストベースで要約する新しいフレームワークを提案する。
これらの要約は報酬モデルを定義し、各ユーザが評価する応答のタイプについてパーソナライズされた予測を可能にする。
提案手法は,新規ユーザや多様な会話トピックに対して堅牢であることを示す。
- 参考スコア(独自算出の注目度): 13.187789731783095
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As everyday use cases of large language model (LLM) AI assistants have expanded, it is becoming increasingly important to personalize responses to align to different users' preferences and goals. While reinforcement learning from human feedback (RLHF) is effective at improving LLMs to be generally more helpful and fluent, it does not account for variability across users, as it models the entire user population with a single reward model. We present a novel framework, Preference Learning Using Summarization (PLUS), that learns text-based summaries of each user's preferences, characteristics, and past conversations. These summaries condition the reward model, enabling it to make personalized predictions about the types of responses valued by each user. We train the user-summarization model with reinforcement learning, and update the reward model simultaneously, creating an online co-adaptation loop. We show that in contrast with prior personalized RLHF techniques or with in-context learning of user information, summaries produced by PLUS capture meaningful aspects of a user's preferences. Across different pluralistic user datasets, we show that our method is robust to new users and diverse conversation topics. Additionally, we demonstrate that the textual summaries generated about users can be transferred for zero-shot personalization of stronger, proprietary models like GPT-4. The resulting user summaries are not only concise and portable, they are easy for users to interpret and modify, allowing for more transparency and user control in LLM alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)AIアシスタントの日常的なユースケースが拡大するにつれて、さまざまなユーザの好みや目標に合わせて応答をパーソナライズすることがますます重要になっている。
人間からのフィードバック(RLHF)からの強化学習は、LLMを改善するのに有効であるが、単一の報酬モデルでユーザ人口全体をモデル化するため、ユーザ間のばらつきを考慮しない。
本稿では,各ユーザの好み,特徴,過去の会話のテキストベースの要約を学習する,PLUS(Preference Learning Using Summarization)という新しいフレームワークを提案する。
これらの要約は報酬モデルを定義し、各ユーザが評価する応答のタイプについてパーソナライズされた予測を可能にする。
我々は、強化学習でユーザ要約モデルをトレーニングし、報酬モデルを同時に更新し、オンラインのコ適応ループを作成します。
従来の個人化RLHF手法やユーザ情報のコンテキスト内学習とは対照的に,PLUSが作成した要約はユーザの好みの有意義な側面を捉えている。
複数ユーザデータセットの相違から,本手法は新規ユーザや多様な会話トピックに対して堅牢であることを示す。
さらに,GPT-4のようなより強力なプロプライエタリなモデルのゼロショットパーソナライズのために,ユーザによって生成されたテキスト要約を転送できることを実証した。
結果として得られるユーザサマリーは簡潔でポータブルなだけでなく、解釈や修正が容易で、LCMアライメントにおける透明性とユーザコントロールをより高めることができる。
関連論文リスト
- User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal [58.43749783815486]
本研究では,2つのユーザ-LMインタラクションデータセットにおける暗黙のユーザフィードバックについて検討する。
ユーザフィードバックの内容は、人間設計の短い質問において、モデル性能を向上させることができる。
また、ユーザフィードバックの有用性は、ユーザの最初のプロンプトの品質に大きく関係していることもわかりました。
論文 参考訳(メタデータ) (2025-07-30T23:33:29Z) - LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。
提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文 参考訳(メタデータ) (2025-04-20T01:16:24Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward [11.495697919066341]
本稿では,好奇心に基づく固有報酬をマルチターンRLHFに組み込むために,ユーザモデルを活用することを提案する。
この新たな報酬機構により、LLMエージェントは会話を最適化してユーザモデルの精度を向上させることにより、ユーザ特性を積極的に推測することができる。
提案手法の有効性は,会話推薦タスクにおけるパーソナライズ性能の大幅な向上と,教育環境における異なる学習スタイルにおける会話のパーソナライズという2つの領域で実証する。
論文 参考訳(メタデータ) (2025-04-04T06:35:02Z) - Rehearse With User: Personalized Opinion Summarization via Role-Playing based on Large Language Models [29.870187698924852]
大きな言語モデルは、長いテキストを含むパーソナライズされたタスクにおいて困難に直面します。
モデルがユーザとして機能することで、モデルはユーザのパーソナライズされたニーズをよりよく理解できます。
提案手法は,大規模モデル生成サマリーにおけるパーソナライズレベルを効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-01T11:05:01Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。
ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文 参考訳(メタデータ) (2025-02-26T14:34:00Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - User Embedding Model for Personalized Language Prompting [9.472634942498859]
自由形式のテキストでユーザ履歴を効率よく処理し,それを埋め込みとして表現する新しいユーザ埋め込みモジュール(UEM)を導入する。
本実験は, より長い歴史を扱う上で, このアプローチの優れた能力を示すものである。
この研究の主な貢献は、埋め込みとして表現されたユーザ信号で言語モデルをバイアスする能力を示すことである。
論文 参考訳(メタデータ) (2024-01-10T00:35:52Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - COLA: Improving Conversational Recommender Systems by Collaborative
Augmentation [9.99763097964222]
アイテム表現学習とユーザ嗜好モデリングの両方を改善するために,協調的拡張(COLA)手法を提案する。
すべての会話から対話型ユーザテムグラフを構築し,ユーザ認識情報によってアイテム表現を拡大する。
ユーザの嗜好モデルを改善するため,学習コーパスから類似した会話を検索し,ユーザの興味を反映した関連項目や属性を用いてユーザ表現を増強する。
論文 参考訳(メタデータ) (2022-12-15T12:37:28Z) - Personalized Reward Learning with Interaction-Grounded Learning (IGL) [7.898208662809734]
現代のレコメンデータシステムは、通常、すべてのユーザーに対して暗黙のフィードバック信号の固定的な組み合わせを最適化する。
本稿では,多様なユーザ・コミュニケーション・モダリティの学習表現の課題に対処するために,近年のインタラクション・グラウンドド・ラーニング・パラダイムを適用することを提案する。
論文 参考訳(メタデータ) (2022-11-28T23:18:10Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。