論文の概要: One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment
- arxiv url: http://arxiv.org/abs/2601.18731v1
- Date: Mon, 26 Jan 2026 17:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.980199
- Title: One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment
- Title(参考訳): パーソナライズされたLLMアライメントのためのメタリワードモデリング
- Authors: Hongru Cai, Yongqi Li, Tiezheng Yu, Fengbin Zhu, Wenjie Wang, Fuli Feng, Wenjie Li,
- Abstract要約: これらの制約に対処するには、データの適合からユーザの好みを学習し、嗜好適応のプロセスを学ぶためのパラダイムシフトが必要である、と我々は主張する。
メタ学習問題としてパーソナライズされた報酬モデルを変更するメタリワードモデリング(MRM)を提案する。
MRMはパーソナライズを強化し、ユーザの堅牢性を向上し、ベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 55.86333374784959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment of Large Language Models (LLMs) aims to align outputs with human preferences, and personalized alignment further adapts models to individual users. This relies on personalized reward models that capture user-specific preferences and automatically provide individualized feedback. However, developing these models faces two critical challenges: the scarcity of feedback from individual users and the need for efficient adaptation to unseen users. We argue that addressing these constraints requires a paradigm shift from fitting data to learn user preferences to learn the process of preference adaptation. To realize this, we propose Meta Reward Modeling (MRM), which reformulates personalized reward modeling as a meta-learning problem. Specifically, we represent each user's reward model as a weighted combination of base reward functions, and optimize the initialization of these weights using a Model-Agnostic Meta-Learning (MAML)-style framework to support fast adaptation under limited feedback. To ensure robustness, we introduce the Robust Personalization Objective (RPO), which places greater emphasis on hard-to-learn users during meta optimization. Extensive experiments on personalized preference datasets validate that MRM enhances few-shot personalization, improves user robustness, and consistently outperforms baselines.
- Abstract(参考訳): 大規模言語モデルのアライメント(LLM)は、アウトプットを人間の好みに合わせることを目的としており、パーソナライズされたアライメントは、モデルをさらに個々のユーザに適応させる。
これはパーソナライズされた報酬モデルに依存しており、ユーザー固有の好みを捉え、自動的に個別化されたフィードバックを提供する。
しかし、これらのモデルの開発には、個々のユーザからのフィードバックの不足と、目に見えないユーザへの効率的な適応の必要性という、2つの重要な課題がある。
これらの制約に対処するには、データの適合からユーザの好みを学習し、嗜好適応のプロセスを学ぶためのパラダイムシフトが必要である、と我々は主張する。
これを実現するために,メタ学習問題としてパーソナライズされた報酬モデリングを再構成するメタリワードモデリング(MRM)を提案する。
具体的には、各ユーザの報酬モデルを基本報酬関数の重み付けの組み合わせとして表現し、モデル非依存メタラーニング(MAML)スタイルのフレームワークを用いて、限られたフィードバック下で高速適応をサポートすることで、これらの重みの初期化を最適化する。
ロバスト・パーソナライゼーション・オブジェクト(RPO)を導入し、メタ最適化の際、学習の困難さに重点を置いている。
パーソナライズされた嗜好データセットに関する大規模な実験は、MRMがパーソナライゼーションをわずかに向上し、ユーザの堅牢性を改善し、ベースラインを一貫して上回っていることを検証している。
関連論文リスト
- Towards Effective Model Editing for LLM Personalization [36.236438676571034]
我々はパーソナライズをモデル編集タスクとして概念化し、パーソナライズ編集を導入する。
このフレームワークは、クラスタ化された選好表現によってガイドされる局所的な編集を適用する。
微調整よりも高い編集精度と計算効率を実現する。
論文 参考訳(メタデータ) (2025-12-15T18:58:15Z) - NextQuill: Causal Preference Modeling for Enhancing LLM Personalization [82.15961484963256]
因果選好モデルに基づく新しいパーソナライズフレームワークであるNextQuillを紹介する。
この洞察に基づいて、NextQuillは2つの補完的なアライメント戦略を導入した。
複数のパーソナライズベンチマークの実験により、NextQuillはパーソナライズ品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-06-03T02:08:55Z) - HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation [24.67727411391369]
HyPerAlignは、大規模言語モデルに対する解釈可能かつサンプル効率の仮説駆動パーソナライズアプローチである。
我々は2つの異なるパーソナライズタスク、すなわち著者帰属と熟考的アライメントについて実験を行った。
その結果、仮説駆動型パーソナライゼーションの方が好みに基づく微調整法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。
提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文 参考訳(メタデータ) (2025-04-20T01:16:24Z) - Personalized Language Models via Privacy-Preserving Evolutionary Model Merging [53.97323896430374]
言語モデルにおけるパーソナライゼーションは、個々のユーザやユーザグループに対する振る舞いをモデル化することを目的としている。
進化的アルゴリズム(PriME)によるプライバシ保護モデルマージを提案する。
PriMEは、プライバシーリスクを低減しつつ、ユーティリティを直接最適化するために、勾配のない方法を採用している。
LaMPベンチマークの実験によると、Primeは一貫してベースラインを上回り、タスクパフォーマンスを最大45%改善している。
論文 参考訳(メタデータ) (2025-03-23T09:46:07Z) - Personalize Your LLM: Fake it then Align it [12.436528089142698]
CHAMELEONは、自己生成した個人嗜好データと表現編集を利用する、スケーラブルで効率的なパーソナライズ手法である。
実験の結果,CHAMELEONは個人選好に効率よく適応し,指導訓練モデルを改善し,平均40%のパーソナライズベースラインを上回り,2つのパーソナライズベースラインを達成できた。
論文 参考訳(メタデータ) (2025-03-02T22:40:10Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。