論文の概要: Synthetic Interaction Data for Scalable Personalization in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.12394v1
- Date: Thu, 12 Feb 2026 20:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.746178
- Title: Synthetic Interaction Data for Scalable Personalization in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるスケーラブルなパーソナライゼーションのための合成インタラクションデータ
- Authors: Yuchen Ma, Yue Huang, Wenjie Wang, Xiaonan Luo, Xiangliang Zhang, Stefan Feuerriegel,
- Abstract要約: 本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。
パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。
我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
- 参考スコア(独自算出の注目度): 67.31884245564086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized prompting offers large opportunities for deploying large language models (LLMs) to diverse users, yet existing prompt optimization methods primarily focus on task-level optimization while largely overlooking user-specific preferences and latent constraints of individual users. This gap is primarily due to (i) the absence of high-quality, privacy-sensitive data that capture personalized user-LLM interactions at scale, and (ii) the lack of robust reward signals for individual preferences. To overcome existing data limitations, we introduce a high-fidelity synthetic data generation framework called PersonaGym. Unlike prior work that treats personalization as static persona-preference pairs, PersonaGym models a dynamic preference process via an agentic LLM system to simulate realistic preference behaviors and semantic-aware noise in order to generate personalized multi-turn interaction trajectories. Using PersonaGym, we release PersonaAtlas, a large-scale, high-quality, and diverse synthetic dataset of high-fidelity multi-turn personalized interaction trajectories that closely mirror real-world preference expression and noise patterns. We further propose Personalized Prompt Optimization (PPOpt), a scalable and model-agnostic framework that optimizes user prompts based on interaction histories without modifying the deployed LLM. PPOpt adopts a reason-then-optimize paradigm that infers an explicit user profile and conditions prompt rewriting on the user profile to avoid reward hacking. Our training procedure for PPOpt integrates a cold-start supervised prior with outcome-driven multi-objective reinforcement learning. We present extensive experiments to demonstrate consistent improvements over state-of-the-art baselines in terms of task performance, personalization quality, and robustness to noisy as well as to sparse preference signals.
- Abstract(参考訳): パーソナライズされたプロンプトは、多様なユーザに対して大規模な言語モデル(LLM)をデプロイする大きな機会を提供するが、既存のプロンプト最適化手法は主にタスクレベルの最適化に重点を置いている。
このギャップは主に
(i)パーソナライズされたユーザ-LLMインタラクションを大規模に捉えた高品質でプライバシーに敏感なデータがないこと、
(二)個人の嗜好に頑健な報奨信号がないこと。
既存のデータ制限を克服するために,PersonaGymと呼ばれる高忠実な合成データ生成フレームワークを導入する。
パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymはエージェントLLMシステムを介して動的な選好プロセスをモデル化し、現実的な選好行動とセマンティック・アウェア・ノイズをシミュレートし、パーソナライズされたマルチターンインタラクション・トラジェクトリを生成する。
PersonaGymを用いて、実世界の嗜好表現とノイズパターンを密接に反映した高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模で高品質で多様な合成データセットであるPersonaAtlasをリリースする。
さらにPPOpt(Personalized Prompt Optimization)を提案する。これはスケーラブルでモデルに依存しないフレームワークで、LLMを変更せずに対話履歴に基づいてユーザープロンプトを最適化する。
PPOptは、ユーザプロファイルと条件を推論して、報酬のハッキングを避けるために、ユーザプロファイルの書き直しを促す、合理的に最適化されたパラダイムを採用している。
PPOptのトレーニング手順は、結果駆動型多目的強化学習に先立って、冷間開始制御を組み込んだものである。
タスク性能,パーソナライズ品質,騒音に対する頑健性,選好信号の疎化といった点において,最先端のベースラインに対する一貫した改善を実証するための広範な実験を行った。
関連論文リスト
- One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment [55.86333374784959]
これらの制約に対処するには、データの適合からユーザの好みを学習し、嗜好適応のプロセスを学ぶためのパラダイムシフトが必要である、と我々は主張する。
メタ学習問題としてパーソナライズされた報酬モデルを変更するメタリワードモデリング(MRM)を提案する。
MRMはパーソナライズを強化し、ユーザの堅牢性を向上し、ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-01-26T17:55:52Z) - Towards Proactive Personalization through Profile Customization for Individual Users in Dialogues [28.522406727886395]
PersonalAgentは、ユーザの好みを継続的に推測し、適応するように設計された、生涯にわたるエージェントである。
実験により、PersonalAgentは強力なプロンプトベースおよびポリシー最適化ベースラインよりも優れたパフォーマンスを達成できることが示された。
本研究は、より包括的で適応的な会話エージェントを開発するために、生涯のパーソナライズの重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-12-17T10:47:06Z) - Towards Effective Model Editing for LLM Personalization [36.236438676571034]
我々はパーソナライズをモデル編集タスクとして概念化し、パーソナライズ編集を導入する。
このフレームワークは、クラスタ化された選好表現によってガイドされる局所的な編集を適用する。
微調整よりも高い編集精度と計算効率を実現する。
論文 参考訳(メタデータ) (2025-12-15T18:58:15Z) - POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。
これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。
4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文 参考訳(メタデータ) (2025-10-17T23:07:57Z) - HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation [24.67727411391369]
HyPerAlignは、大規模言語モデルに対する解釈可能かつサンプル効率の仮説駆動パーソナライズアプローチである。
我々は2つの異なるパーソナライズタスク、すなわち著者帰属と熟考的アライメントについて実験を行った。
その結果、仮説駆動型パーソナライゼーションの方が好みに基づく微調整法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。
提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文 参考訳(メタデータ) (2025-04-20T01:16:24Z) - Personalized Language Models via Privacy-Preserving Evolutionary Model Merging [53.97323896430374]
言語モデルにおけるパーソナライゼーションは、個々のユーザやユーザグループに対する振る舞いをモデル化することを目的としている。
進化的アルゴリズム(PriME)によるプライバシ保護モデルマージを提案する。
PriMEは、プライバシーリスクを低減しつつ、ユーティリティを直接最適化するために、勾配のない方法を採用している。
LaMPベンチマークの実験によると、Primeは一貫してベースラインを上回り、タスクパフォーマンスを最大45%改善している。
論文 参考訳(メタデータ) (2025-03-23T09:46:07Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。