論文の概要: Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.18849v1
- Date: Tue, 21 Oct 2025 17:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.044137
- Title: Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning
- Title(参考訳): 批判・編集後強化学習による忠実かつ制御可能なパーソナライゼーションを目指して
- Authors: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou,
- Abstract要約: より忠実でコントロール可能なパーソナライゼーションを実現する,堅牢な強化学習フレームワークであるCristique-Post-Editを提案する。
本フレームワークは,(1)報奨ハッキングに抵抗する多次元スコアとテキスト批評を提供するパーソナライズドジェネレーティブ・リワード・モデル(GRM)と,(2)より標的的で効率的な学習のためのこれらの批判に基づいて,ポリシーモデルが自身の出力を更新する批評家・ポスト編集機構の2つの重要なコンポーネントを統合する。
- 参考スコア(独自算出の注目度): 22.252030067675065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Faithfully personalizing large language models (LLMs) to align with individual user preferences is a critical but challenging task. While supervised fine-tuning (SFT) quickly reaches a performance plateau, standard reinforcement learning from human feedback (RLHF) also struggles with the nuances of personalization. Scalar-based reward models are prone to reward hacking which leads to verbose and superficially personalized responses. To address these limitations, we propose Critique-Post-Edit, a robust reinforcement learning framework that enables more faithful and controllable personalization. Our framework integrates two key components: (1) a Personalized Generative Reward Model (GRM) that provides multi-dimensional scores and textual critiques to resist reward hacking, and (2) a Critique-Post-Edit mechanism where the policy model revises its own outputs based on these critiques for more targeted and efficient learning. Under a rigorous length-controlled evaluation, our method substantially outperforms standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses the performance of GPT-4.1. These results demonstrate a practical path to faithful, efficient, and controllable personalization.
- Abstract(参考訳): 個々のユーザの好みに合わせて大きな言語モデル(LLM)を忠実にパーソナライズすることは、重要な作業ですが、難しい作業です。
教師付き微調整(SFT)はすぐにパフォーマンス高原に達するが、人間からのフィードバックからの標準的な強化学習(RLHF)もまた、パーソナライゼーションのニュアンスに苦慮している。
スケーラブルベースの報酬モデルは、冗長で表面的にパーソナライズされたレスポンスにつながるハッキングに報酬を与える傾向があります。
これらの制約に対処するため、より忠実で制御可能なパーソナライズを可能にする堅牢な強化学習フレームワークであるCristique-Post-Editを提案する。
本フレームワークは,(1)報奨ハッキングに抵抗する多次元スコアとテキスト批評を提供するパーソナライズドジェネレーティブ・リワード・モデル(GRM)と,(2)より標的的で効率的な学習のためのこれらの批判に基づいて,ポリシーモデルが自身の出力を更新する批評家・ポスト編集機構の2つの重要なコンポーネントを統合する。
厳密な長さ制御評価のもと,本手法はパーソナライズベンチマークにおいて標準PPOよりも大幅に優れていた。
パーソナライズされた Qwen2.5-7B は平均 11 % の勝利率改善を実現し、パーソナライズされた Qwen2.5-14B モデルは GPT-4.1 の性能を上回る。
これらの結果は、忠実で、効率的で、制御可能なパーソナライゼーションへの実践的な道を示す。
関連論文リスト
- Benchmarking and Improving LLM Robustness for Personalized Generation [42.26075952121524]
反応が事実的正確であり、ユーザの好みと一致している場合、モデルをロバストと定義します。
私たちの作業は、現在の評価プラクティスにおける重要なギャップを強調し、より信頼性が高く、ユーザ対応のデプロイメントをサポートするためのツールとメトリクスを導入しています。
論文 参考訳(メタデータ) (2025-09-18T13:56:14Z) - LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.71684530652942]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。
テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。
その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-08-31T03:08:02Z) - Learning from Natural Language Feedback for Personalized Question Answering [21.115495457454365]
パーソナライゼーションは、言語技術の有効性とユーザ満足度を高めるために不可欠である。
大規模言語モデル(LLM)をパーソナライズするための現在のアプローチは、しばしば検索強化世代(RAG)に依存している。
我々は、スカラー報酬を自然言語フィードバック(NLF)に置き換える、パーソナライズされた応答生成のための新しいフレームワークであるVacを紹介する。
論文 参考訳(メタデータ) (2025-08-14T14:36:53Z) - User-centric Subjective Leaderboard by Customizable Reward Modeling [34.40455169451943]
ユーザ中心型主観的リーダーシップ(USL)について紹介する。
さまざまな現実世界のシナリオにまたがって、大規模言語モデル(LLM)の好み駆動の動的ランキングを提供する。
我々の研究は、10万件以上の主観的クエリを含む、実際の人間の嗜好データの徹底的な調査に基づいている。
論文 参考訳(メタデータ) (2025-08-13T03:39:04Z) - RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback [57.967762383794806]
RefCriticは、二重ルールベースの報酬による強化学習に基づく、長鎖の批判モジュールである。
我々は5つのベンチマークでQwen2.5-14BとDeepSeek-R1-Distill-Qwen-14BのRefCriticを評価した。
論文 参考訳(メタデータ) (2025-07-20T16:19:51Z) - Learning to summarize user information for personalized reinforcement learning from human feedback [19.859785715555013]
Preference Learning Using Summarization (PLUS) は、強化学習を用いて、各ユーザの好みのテキストベースの要約を生成する。
ユーザサマリゼーションモデルと報酬モデルの両方を同時にトレーニングし、オンラインのコ適応ループを作成する。
PLUSはユーザの好みを多様に把握し,報奨モデルの精度を11~77%向上することを示す。
論文 参考訳(メタデータ) (2025-07-17T23:48:51Z) - Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment [35.68913976348608]
本稿では,対話を通じてユーザプロファイルを反復的に推測・精査するRLPAフレームワークについて紹介する。
我々はQwen-2.5-3B-インストラクトを微調整することでRLPAをインスタンス化し、Qwen-RLPAはパーソナライズされた対話における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-21T12:38:36Z) - Self-Consistency of the Internal Reward Models Improves Self-Rewarding Language Models [63.116041268654705]
同じ大言語モデル内の異なる内部報酬モデルが、しばしば矛盾した嗜好を生じさせることがわかった。
この矛盾は、自己生成の嗜好データの信頼性への懸念を高め、全体的なアライメントパフォーマンスを阻害し、さらなる研究の必要性を強調する。
トレーニング中に内部報酬モデル間の整合性を高めるための新しいフレームワークである自己一貫性内部報酬(SCIR)を提案する。
論文 参考訳(メタデータ) (2025-02-13T03:15:31Z) - Self-Generated Critiques Boost Reward Modeling for Language Models [57.60881438647227]
Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。
実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T18:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。