論文の概要: MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning
- arxiv url: http://arxiv.org/abs/2505.24846v1
- Date: Fri, 30 May 2025 17:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.1092
- Title: MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning
- Title(参考訳): MiCRo:パーソナライズされた嗜好学習のための混合モデリングとコンテキスト認識ルーティング
- Authors: Jingyan Shen, Jiarui Yao, Rui Yang, Yifan Sun, Feng Luo, Rui Pan, Tong Zhang, Han Zhao,
- Abstract要約: 大規模な二元選好データセットを活用することにより、パーソナライズされた選好学習を強化する2段階フレームワークであるMiCRoを紹介する。
最初の段階では、MiCRoは様々な人間の嗜好を捉えるためにコンテキスト対応の混合モデリング手法を導入している。
第2段階では、MiCRoは、特定のコンテキストに基づいて混合重みを動的に適応してあいまいさを解決するオンラインルーティング戦略を統合する。
- 参考スコア(独自算出の注目度): 22.154640547329738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward modeling is a key step in building safe foundation models when applying reinforcement learning from human feedback (RLHF) to align Large Language Models (LLMs). However, reward modeling based on the Bradley-Terry (BT) model assumes a global reward function, failing to capture the inherently diverse and heterogeneous human preferences. Hence, such oversimplification limits LLMs from supporting personalization and pluralistic alignment. Theoretically, we show that when human preferences follow a mixture distribution of diverse subgroups, a single BT model has an irreducible error. While existing solutions, such as multi-objective learning with fine-grained annotations, help address this issue, they are costly and constrained by predefined attributes, failing to fully capture the richness of human values. In this work, we introduce MiCRo, a two-stage framework that enhances personalized preference learning by leveraging large-scale binary preference datasets without requiring explicit fine-grained annotations. In the first stage, MiCRo introduces context-aware mixture modeling approach to capture diverse human preferences. In the second stage, MiCRo integrates an online routing strategy that dynamically adapts mixture weights based on specific context to resolve ambiguity, allowing for efficient and scalable preference adaptation with minimal additional supervision. Experiments on multiple preference datasets demonstrate that MiCRo effectively captures diverse human preferences and significantly improves downstream personalization.
- Abstract(参考訳): リワードモデリングは、人間のフィードバック(RLHF)から強化学習を適用してLLM(Large Language Models)を整合させる際に、安全な基礎モデルを構築するための重要なステップである。
しかし、Bradley-Terry(BT)モデルに基づく報酬モデリングは、本質的に多様性があり異質な人間の嗜好を捉えない、グローバルな報酬関数を前提としている。
したがって、このような単純化により、LSMはパーソナライゼーションと多元的アライメントをサポートすることが制限される。
理論的には、人間の嗜好が様々なサブグループの混合分布に従うとき、単一のBTモデルが既約誤差を持つことを示す。
詳細なアノテーションによる多目的学習のような既存のソリューションはこの問題に対処するのに役立つが、事前に定義された属性によってコストがかかり制約されるため、人間の価値の豊かさを完全に把握できない。
本研究では,2段階のフレームワークであるMiCRoについて紹介する。このフレームワークは,大規模な二項選好データセットを活用することにより,明示的な微粒なアノテーションを必要とせず,パーソナライズされた選好学習を促進する。
最初の段階では、MiCRoは様々な人間の嗜好を捉えるためにコンテキスト対応の混合モデリング手法を導入している。
第二段階では、MiCRoは、特定のコンテキストに基づいて混合重みを動的に適応してあいまいさを解決するオンラインルーティング戦略を統合する。
複数の選好データセットの実験により、MiCRoは様々な人の選好を効果的に捉え、下流のパーソナライゼーションを大幅に改善することが示された。
関連論文リスト
- MPO: An Efficient Post-Processing Framework for Mixing Diverse Preference Alignment [14.541973333460149]
Mixing Preference Optimization (MPO)は、単一目的ポリシーを集約するための後処理フレームワークである。
MPOは様々な好みにまたがるバランスの取れた性能を実現し、計算コストを大幅に削減した既存モデルより優れている。
論文 参考訳(メタデータ) (2025-02-25T23:22:12Z) - Rethinking Diverse Human Preference Learning through Principal Component Analysis [22.123631189289963]
本稿では,二項比較から多種多様な人間の嗜好を抽出する新しいアプローチであるデコンプリート・リワード・モデル(DRM)を紹介する。
我々の重要な洞察は、人間の好みをベクトルとして表現し、主成分分析(PCA)を用いて分析することである。
DRMは、意味のある好みの次元(例えば、有用性、安全性、ユーモア)を効果的に抽出し、追加のトレーニングなしで新規ユーザーに適応する。
論文 参考訳(メタデータ) (2025-02-18T18:55:26Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
我々はHyPERを紹介した。HyPERは、人間または言語モデル(LM)にアノテーションを付与するハイブリッド推論ルータである。
その結果,HyPERを用いた人工選好と直接選好の混合は,RewardBenchでは7-13%しか使用せず,RM性能が向上していることがわかった。
また、HyPERの機能を分析した結果、安全上の懸念や複雑さが人間のフィードバックから最も恩恵を受けていることがわかりました。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences [6.398937923320069]
我々は、既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。
PALは,強いベースラインと比較して,競争報酬モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2024-06-12T17:54:54Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。