論文の概要: Pareto-Optimal Learning from Preferences with Hidden Context
- arxiv url: http://arxiv.org/abs/2406.15599v1
- Date: Fri, 21 Jun 2024 18:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 21:24:18.104126
- Title: Pareto-Optimal Learning from Preferences with Hidden Context
- Title(参考訳): 隠れた文脈による嗜好からのパレート最適学習
- Authors: Ryan Boldi, Li Ding, Lee Spector, Scott Niekum,
- Abstract要約: 本稿では,グループ選好の相違を潜在的なトレードオフを伴う目的とするPOPLを提案する。
実験により,POPLは報酬関数の学習において,ベースライン法を超越していることが示された。
POPLは、グループフェアネスの特定の概念を最適化する技術の基礎として機能する。
- 参考スコア(独自算出の注目度): 18.340302968130683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring AI models align with human values is essential for their safety and functionality. Reinforcement learning from human feedback (RLHF) uses human preferences to achieve this alignment. However, preferences sourced from diverse populations can result in point estimates of human values that may be sub-optimal or unfair to specific groups. We propose Pareto Optimal Preference Learning (POPL), which frames discrepant group preferences as objectives with potential trade-offs, aiming for policies that are Pareto-optimal on the preference dataset. POPL utilizes Lexicase selection, an iterative process to select diverse and Pareto-optimal solutions. Our empirical evaluations demonstrate that POPL surpasses baseline methods in learning sets of reward functions, effectively catering to distinct groups without access to group numbers or membership labels. Furthermore, we illustrate that POPL can serve as a foundation for techniques optimizing specific notions of group fairness, ensuring inclusive and equitable AI model alignment.
- Abstract(参考訳): AIモデルを人間の価値と整合させることは、その安全性と機能にとって不可欠である。
人間のフィードバックからの強化学習(RLHF)はこのアライメントを達成するために人間の好みを使用する。
しかし、多様な集団から派生した嗜好は、特定のグループに対して最適あるいは不公平であるかもしれない人間の価値の点推定をもたらす可能性がある。
そこで本稿では,Paleto Optimal Preference Learning (POPL) を提案する。
POPLは、多様なパレート最適解を選択する反復的なプロセスであるLexicase selectionを利用する。
実験により,POPLは報酬関数の集合の学習において基本的手法を超越し,グループ番号やメンバシップラベルを使わずにグループに効果的に対応できることが確認された。
さらに、POPLはグループフェアネスの特定の概念を最適化し、包括的で公平なAIモデルのアライメントを保証する技術の基礎として機能することを示す。
関連論文リスト
- VPO: Leveraging the Number of Votes in Preference Optimization [5.200545764106177]
本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。
我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-30T10:39:34Z) - Preference Optimization as Probabilistic Inference [21.95277469346728]
本稿では,好ましくない例や好ましくない例を活用できる手法を提案する。
この柔軟性により、生成言語モデルをトレーニングするなど、さまざまな形式のフィードバックとモデルでシナリオに適用することが可能になります。
論文 参考訳(メタデータ) (2024-10-05T14:04:03Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Group Robust Preference Optimization in Reward-free RLHF [23.622835830345725]
そこで本研究では,大規模言語モデルと各グループの嗜好を密に整合させる新しいグループロバスト選好最適化法を提案する。
これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。
我々は,最悪のパフォーマンス群の性能向上,グループ間の損失不均衡の低減,確率精度の向上について検討した。
論文 参考訳(メタデータ) (2024-05-30T17:50:04Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。