論文の概要: Learning to summarize user information for personalized reinforcement learning from human feedback
- arxiv url: http://arxiv.org/abs/2507.13579v2
- Date: Fri, 26 Sep 2025 20:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.117118
- Title: Learning to summarize user information for personalized reinforcement learning from human feedback
- Title(参考訳): 人からのフィードバックからパーソナライズされた強化学習のためのユーザ情報要約学習
- Authors: Hyunji Nam, Yanming Wan, Mickel Liu, Jianxun Lian, Peter Ahnn, Natasha Jaques,
- Abstract要約: Preference Learning Using Summarization (PLUS) は、強化学習を用いて、各ユーザの好みのテキストベースの要約を生成する。
ユーザサマリゼーションモデルと報酬モデルの両方を同時にトレーニングし、オンラインのコ適応ループを作成する。
PLUSはユーザの好みを多様に把握し,報奨モデルの精度を11~77%向上することを示す。
- 参考スコア(独自算出の注目度): 19.859785715555013
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As everyday use cases of large language model (LLM) AI assistants have expanded, it is becoming increasingly important to personalize responses to align to different users' preferences and goals. While reinforcement learning from human feedback (RLHF) is effective at improving LLMs to be generally more helpful and fluent, it does not account for variability across users, as it models the entire user population with a single reward model, meaning it assumes that everyone's preferences are the same. We present a novel framework, Preference Learning Using Summarization (PLUS), that uses reinforcement learning (RL) to learn to produce text-based summaries of each user's preferences, characteristics, and past conversations. These summaries condition the reward model, enabling it to make personalized predictions about the types of responses valued by each user. Both the user-summarization model and reward model are trained simultaneously, creating an online co-adaptation loop. We show that in contrast to the standard Bradley-Terry model, summaries produced by PLUS capture diverse aspects of user preferences, achieving a 11-77% improvement in reward model accuracy. Key strengths of PLUS are: (1) robust performance with new users and conversation topics, achieving a 25% improvement over the best personalized RLHF technique; (2) zero-shot personalization with state-of-the-art proprietary models like GPT-4 (e.g., PLUS-summary-conditioned responses achieved a 72% win rate compared to 28% for default GPT-4o); (3) learning from flexible user contexts beyond preference labels, and (4) interpretable representation of users, enabling greater transparency and user control in pluralistic LLM alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)AIアシスタントの日常的なユースケースが拡大するにつれて、さまざまなユーザの好みや目標に合わせて応答をパーソナライズすることがますます重要になっている。
ヒューマンフィードバック(RLHF)からの強化学習は、一般的にはLLMを改善するのに有効であるが、ユーザ全体の変動を1つの報酬モデルでモデル化するため、ユーザ間のばらつきを考慮しない。
本稿では,各ユーザの好み,特徴,過去の会話をテキストベースで要約するために,強化学習(RL)を用いて学習する新しいフレームワーク,PLUSを提案する。
これらの要約は報酬モデルを定義し、各ユーザが評価する応答のタイプについてパーソナライズされた予測を可能にする。
ユーザサマリゼーションモデルと報酬モデルの両方を同時にトレーニングし、オンラインのコ適応ループを作成する。
標準的なBradley-Terryモデルとは対照的に,PLUSが生成するサマリーは,ユーザの嗜好の多様な側面を捉え,報奨モデルの精度を11~77%向上させることを示す。
PLUS の主な強みは,(1) 新規ユーザと会話トピックによる堅牢なパフォーマンス, 最高のパーソナライズされたRLHF技術に対する25%の改善, (2) GPT-4 (例: PLUS-summary-conditioned response) のような最先端のプロプライエタリなモデルによるゼロショットパーソナライゼーション (例: PLUS-summary-conditioned response) によるゼロショットパーソナライゼーション (例: PLUS-summary-conditioned response) は,デフォルト GPT-4o の 28% に比べて 72% の勝利率を達成した,(3) 好みラベルを超えた柔軟なユーザコンテキストからの学習,(4) ユーザの解釈可能な表現の実現により,多元的 LLM アライメントにおける透明性とユーザコントロールが向上した。
関連論文リスト
- User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal [58.43749783815486]
本研究では,2つのユーザ-LMインタラクションデータセットにおける暗黙のユーザフィードバックについて検討する。
ユーザフィードバックの内容は、人間設計の短い質問において、モデル性能を向上させることができる。
また、ユーザフィードバックの有用性は、ユーザの最初のプロンプトの品質に大きく関係していることもわかりました。
論文 参考訳(メタデータ) (2025-07-30T23:33:29Z) - LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。
提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文 参考訳(メタデータ) (2025-04-20T01:16:24Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward [11.495697919066341]
本稿では,好奇心に基づく固有報酬をマルチターンRLHFに組み込むために,ユーザモデルを活用することを提案する。
この新たな報酬機構により、LLMエージェントは会話を最適化してユーザモデルの精度を向上させることにより、ユーザ特性を積極的に推測することができる。
提案手法の有効性は,会話推薦タスクにおけるパーソナライズ性能の大幅な向上と,教育環境における異なる学習スタイルにおける会話のパーソナライズという2つの領域で実証する。
論文 参考訳(メタデータ) (2025-04-04T06:35:02Z) - Rehearse With User: Personalized Opinion Summarization via Role-Playing based on Large Language Models [29.870187698924852]
大きな言語モデルは、長いテキストを含むパーソナライズされたタスクにおいて困難に直面します。
モデルがユーザとして機能することで、モデルはユーザのパーソナライズされたニーズをよりよく理解できます。
提案手法は,大規模モデル生成サマリーにおけるパーソナライズレベルを効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-01T11:05:01Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。
ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文 参考訳(メタデータ) (2025-02-26T14:34:00Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - User Embedding Model for Personalized Language Prompting [9.472634942498859]
自由形式のテキストでユーザ履歴を効率よく処理し,それを埋め込みとして表現する新しいユーザ埋め込みモジュール(UEM)を導入する。
本実験は, より長い歴史を扱う上で, このアプローチの優れた能力を示すものである。
この研究の主な貢献は、埋め込みとして表現されたユーザ信号で言語モデルをバイアスする能力を示すことである。
論文 参考訳(メタデータ) (2024-01-10T00:35:52Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - COLA: Improving Conversational Recommender Systems by Collaborative
Augmentation [9.99763097964222]
アイテム表現学習とユーザ嗜好モデリングの両方を改善するために,協調的拡張(COLA)手法を提案する。
すべての会話から対話型ユーザテムグラフを構築し,ユーザ認識情報によってアイテム表現を拡大する。
ユーザの嗜好モデルを改善するため,学習コーパスから類似した会話を検索し,ユーザの興味を反映した関連項目や属性を用いてユーザ表現を増強する。
論文 参考訳(メタデータ) (2022-12-15T12:37:28Z) - Personalized Reward Learning with Interaction-Grounded Learning (IGL) [7.898208662809734]
現代のレコメンデータシステムは、通常、すべてのユーザーに対して暗黙のフィードバック信号の固定的な組み合わせを最適化する。
本稿では,多様なユーザ・コミュニケーション・モダリティの学習表現の課題に対処するために,近年のインタラクション・グラウンドド・ラーニング・パラダイムを適用することを提案する。
論文 参考訳(メタデータ) (2022-11-28T23:18:10Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。