論文の概要: Reflective Personalization Optimization: A Post-hoc Rewriting Framework for Black-Box Large Language Models
- arxiv url: http://arxiv.org/abs/2511.05286v1
- Date: Fri, 07 Nov 2025 14:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.795959
- Title: Reflective Personalization Optimization: A Post-hoc Rewriting Framework for Black-Box Large Language Models
- Title(参考訳): リフレクティブパーソナライゼーション最適化:ブラックボックス大言語モデルのためのポストホック書き換えフレームワーク
- Authors: Teqi Hao, Xioayu Tan, Shaojie Shi, Yinghui Xu, Xihe Qiu,
- Abstract要約: 本稿では、コンテンツ生成をアライメントから切り離してパーソナライズパラダイムを再定義するフレームワークであるリフレクティブパーソナライズ最適化(RPO)を提案する。
RPOは2つの異なる段階で動作する: まず、ベースモデルが高品質で汎用的な応答を生成し、その後、外部反射モジュールがこの出力を明示的に書き直してユーザの好みに合わせる。
LaMPベンチマークの総合的な実験により、RPOはパーソナライゼーションからコンテンツ生成を分離することで、最先端のベースラインを大幅に上回ることを示した。
- 参考スコア(独自算出の注目度): 16.152962349146275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The personalization of black-box large language models (LLMs) is a critical yet challenging task. Existing approaches predominantly rely on context injection, where user history is embedded into the prompt to directly guide the generation process. However, this single-step paradigm imposes a dual burden on the model: generating accurate content while simultaneously aligning with user-specific styles. This often results in a trade-off that compromises output quality and limits precise control. To address this fundamental tension, we propose Reflective Personalization Optimization (RPO), a novel framework that redefines the personalization paradigm by decoupling content generation from alignment. RPO operates in two distinct stages: first, a base model generates a high-quality, generic response; then, an external reflection module explicitly rewrites this output to align with the user's preferences. This reflection module is trained using a two-stage process. Initially, supervised fine-tuning is employed on structured rewriting trajectories to establish a core personalized reasoning policy that models the transformation from generic to user-aligned responses. Subsequently, reinforcement learning is applied to further refine and enhance the quality of the personalized outputs. Comprehensive experiments on the LaMP benchmark demonstrate that RPO, by decoupling content generation from personalization, significantly outperforms state-of-the-art baselines. These findings underscore the superiority of explicit response shaping over implicit context injection. Moreover, RPO introduces an efficient, model-agnostic personalization layer that can be seamlessly integrated with any underlying base model, paving the way for a new and effective direction in user-centric generation scenarios.
- Abstract(参考訳): ブラックボックスの大規模言語モデル(LLM)のパーソナライズは重要な課題である。
既存のアプローチは主にコンテキスト注入に依存しており、ユーザ履歴が生成プロセスを直接ガイドするプロンプトに埋め込まれている。
しかし、このシングルステップのパラダイムは、正確なコンテンツを生成しながら、ユーザ固有のスタイルと同時に調整するという、モデルに二重の負担をかける。
これはしばしば、出力品質を妥協し、正確な制御を制限するトレードオフをもたらす。
この基本的な緊張に対処するために,コンテンツ生成をアライメントから切り離してパーソナライズパラダイムを再定義する新しいフレームワークであるリフレクティブパーソナライズ最適化(RPO)を提案する。
RPOは2つの異なる段階で動作する: まず、ベースモデルが高品質で汎用的な応答を生成し、その後、外部反射モジュールがこの出力を明示的に書き直してユーザの好みに合わせる。
このリフレクションモジュールは、2段階のプロセスで訓練される。
当初、教師付き微調整は構造化されたリライトトラジェクトリに使われ、ジェネリックからユーザ対応の応答への変換をモデル化するパーソナライズされた推論ポリシーを確立する。
その後、強化学習を適用して、パーソナライズされた出力の品質をさらに洗練し、向上させる。
LaMPベンチマークの総合的な実験により、RPOはパーソナライゼーションからコンテンツ生成を分離することで、最先端のベースラインを大幅に上回ることを示した。
これらの知見は、暗黙の文脈注入よりも明示的な応答整形が優れていることを裏付けるものである。
さらに、RPOは効率的なモデルに依存しないパーソナライゼーションレイヤを導入しています。
関連論文リスト
- RPM: Reasoning-Level Personalization for Black-Box Large Language Models [13.102489006219548]
この研究は、推論レベルのパーソナライゼーションを新しいパラダイムとして導入する。
RPMは、ユーザの振舞いのパターンから構築された構造化理性を用いて、モデルの推論プロセスを導くために設計された最初の体系的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T12:06:16Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment [35.68913976348608]
本稿では,対話を通じてユーザプロファイルを反復的に推測・精査するRLPAフレームワークについて紹介する。
我々はQwen-2.5-3B-インストラクトを微調整することでRLPAをインスタンス化し、Qwen-RLPAはパーソナライズされた対話における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-21T12:38:36Z) - Personalized Text Generation with Contrastive Activation Steering [63.60368120937822]
そこで本研究では,ベクタとしてパーソナライズされた書体スタイルを分離し,表現する学習自由フレームワークを提案する。
本フレームワークは,PEFT法よりも1700倍のストレージ要求を削減しつつ,パーソナライズ生成において,8%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2025-03-07T08:07:15Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。