論文の概要: PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences
- arxiv url: http://arxiv.org/abs/2406.08469v1
- Date: Wed, 12 Jun 2024 17:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:27:35.125686
- Title: PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences
- Title(参考訳): PAL:不均一な選好から学ぶための多元的アライメントフレームワーク
- Authors: Daiwei Chen, Yi Chen, Aniket Rege, Ramya Korlakai Vinayak,
- Abstract要約: 我々は、既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。
PALは,強いベースラインと比較して,競争報酬モデルの精度が向上することを示す。
- 参考スコア(独自算出の注目度): 6.398937923320069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large foundation models pretrained on raw web-scale data are not readily deployable without additional step of extensive alignment to human preferences. Such alignment is typically done by collecting large amounts of pairwise comparisons from humans ("Do you prefer output A or B?") and learning a reward model or a policy with the Bradley-Terry-Luce (BTL) model as a proxy for a human's underlying implicit preferences. These methods generally suffer from assuming a universal preference shared by all humans, which lacks the flexibility of adapting to plurality of opinions and preferences. In this work, we propose PAL, a framework to model human preference complementary to existing pretraining strategies, which incorporates plurality from the ground up. We propose using the ideal point model as a lens to view alignment using preference comparisons. Together with our novel reformulation and using mixture modeling, our framework captures the plurality of population preferences while simultaneously learning a common preference latent space across different preferences, which can few-shot generalize to new, unseen users. Our approach enables us to use the penultimate-layer representation of large foundation models and simple MLP layers to learn reward functions that are on-par with the existing large state-of-the-art reward models, thereby enhancing efficiency of reward modeling significantly. We show that PAL achieves competitive reward model accuracy compared to strong baselines on 1) Language models with Summary dataset ; 2) Image Generative models with Pick-a-Pic dataset ; 3) A new semisynthetic heterogeneous dataset generated using Anthropic Personas. Finally, our experiments also highlight the shortcoming of current preference datasets that are created using rigid rubrics which wash away heterogeneity, and call for more nuanced data collection approaches.
- Abstract(参考訳): 生のWebスケールデータに事前訓練された大規模な基盤モデルは、人間の好みに合わせた追加のステップなしでは容易にデプロイできない。
このようなアライメントは、典型的には、人間から大量のペア比較("Do you preferred output A or B?")を集め、人間の基本的暗黙の選好のプロキシとして、報酬モデルまたは政策をブラッドリー・テリー・ルーシ(英語版)(BTL)モデルで学習することで行われる。
これらの手法は一般に、複数の意見や嗜好に適応する柔軟性に欠ける、すべての人間が共有する普遍的な嗜好を仮定する。
本研究では,既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。
本稿では、レンズとして理想点モデルを用いて、優先比較を用いた視線アライメントを提案する。
本フレームワークは, 新規な改質と混合モデルの利用とともに, 複数個体の嗜好を同時に把握し, 異なる嗜好にまたがる共通嗜好空間を学習する。
提案手法は,大規模基礎モデルと単純なMLP階層の最小層表現を用いて,既存の大規模技術報酬モデルと同等の報酬関数を学習し,報酬モデルの有効性を著しく向上させる。
我々はPALが強力なベースラインに比べて競争報酬モデル精度を達成することを示す。
1)要約データセットを用いた言語モデル; 2)ピック・ア・ピックデータセットを用いた画像生成モデル; 3)人文的ペルソナを用いた新しい半合成異種データセット。
最後に、我々の実験は、不均一性を洗い流し、よりニュアンスなデータ収集アプローチを要求する剛体ルーリックを使用して作成される現在の嗜好データセットの欠点についても強調した。
関連論文リスト
- Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity [16.91835461818937]
本稿では,生成モデルと人間の嗜好を一致させる新しい手法を提案する。
そこで我々はDPOに対する期待最大化適応を提案し、アノテータの潜在選好型に基づくモデルの混合を生成する。
我々のアルゴリズムはDPOの単純さを生かし、多様な好みを調節する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。