論文の概要: Group Robust Preference Optimization in Reward-free RLHF
- arxiv url: http://arxiv.org/abs/2405.20304v1
- Date: Thu, 30 May 2024 17:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:00:01.283908
- Title: Group Robust Preference Optimization in Reward-free RLHF
- Title(参考訳): Reward-free RLHFにおけるグループロバスト選好最適化
- Authors: Shyam Sundhar Ramesh, Yifan Hu, Iason Chaimalas, Viraj Mehta, Pier Giuseppe Sessa, Haitham Bou Ammar, Ilija Bogunovic,
- Abstract要約: そこで本研究では,大規模言語モデルと各グループの嗜好を密に整合させる新しいグループロバスト選好最適化法を提案する。
これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。
我々は,最悪のパフォーマンス群の性能向上,グループ間の損失不均衡の低減,確率精度の向上について検討した。
- 参考スコア(独自算出の注目度): 23.622835830345725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large language models (LLMs) for specific tasks usually involves fine-tuning through reinforcement learning with human feedback (RLHF) on preference data. While these data often come from diverse labelers' groups (e.g., different demographics, ethnicities, company teams, etc.), traditional RLHF approaches adopt a "one-size-fits-all" approach, i.e., they indiscriminately assume and optimize a single preference model, thus not being robust to unique characteristics and needs of the various groups. To address this limitation, we propose a novel Group Robust Preference Optimization (GRPO) method to align LLMs to individual groups' preferences robustly. Our approach builds upon reward-free direct preference optimization methods, but unlike previous approaches, it seeks a robust policy which maximizes the worst-case group performance. To achieve this, GRPO adaptively and sequentially weights the importance of different groups, prioritizing groups with worse cumulative loss. We theoretically study the feasibility of GRPO and analyze its convergence for the log-linear policy class. By fine-tuning LLMs with GRPO using diverse group-based global opinion data, we significantly improved performance for the worst-performing groups, reduced loss imbalances across groups, and improved probability accuracies compared to non-robust baselines.
- Abstract(参考訳): 特定のタスクに大規模言語モデル(LLM)を適用する場合、通常、好みのデータに対する人間からのフィードバック(RLHF)による強化学習を通じて微調整を行う。
これらのデータは、様々なラベラーのグループ(例えば、異なる人口層、民族、企業チームなど)から来ることが多いが、伝統的なRLHFアプローチは「一大フィット」アプローチを採用する。
この制限に対処するために、LLMを個々のグループの好みにしっかりと合わせる新しいグループロバスト選好最適化法(GRPO)を提案する。
提案手法は報酬のない直接選好最適化法に基づいているが、従来の手法とは異なり、最悪のグループ性能を最大化する堅牢なポリシーを求める。
これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。
本稿では,GRPOの実現可能性について理論的に検討し,その収束度を対数線形ポリシークラスで解析する。
多様なグループベースのグローバル世論データを用いてGRPOを用いてLEMを微調整することにより、最悪のパフォーマンスグループのパフォーマンスを著しく改善し、グループ間の損失不均衡を低減し、非ロバストベースラインと比較して確率精度を向上した。
関連論文リスト
- Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。
OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Pareto-Optimal Learning from Preferences with Hidden Context [18.340302968130683]
本稿では,グループ選好の相違を潜在的なトレードオフを伴う目的とするPOPLを提案する。
実験により,POPLは報酬関数の学習において,ベースライン法を超越していることが示された。
POPLは、グループフェアネスの特定の概念を最適化する技術の基礎として機能する。
論文 参考訳(メタデータ) (2024-06-21T18:57:38Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Group Preference Optimization: Few-Shot Alignment of Large Language Models [28.464834028110538]
グループ優先最適化(Group Preference Optimization)は、言語モデルを数ショットで個々のグループを選好する。
大規模言語モデルを用いた厳密な評価により, GPOの有効性を実証的に検証した。
以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論のリソースを少なくする。
論文 参考訳(メタデータ) (2023-10-17T18:41:57Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Re-weighting Based Group Fairness Regularization via Classwise Robust
Optimization [30.089819400033985]
そこで本研究では,グループフェアネス尺度を学習目標に組み込むことにより,この2つの学習手法を統一する原理的手法を提案する。
我々は,各グループに対して適切な再重み付けを自動的に生成することにより,結果の目的を最小化する反復最適化アルゴリズムを開発した。
実験の結果,FairDROはスケーラブルで,多様なアプリケーションに容易に適用可能であることがわかった。
論文 参考訳(メタデータ) (2023-03-01T12:00:37Z) - Focus on the Common Good: Group Distributional Robustness Follows [47.62596240492509]
本稿では,多様なグループ間で共有される特徴の学習を明示的に促進する,新しい,シンプルなアルゴリズムを提案する。
グループDROは、最低の正規化損失を持つグループに焦点を当て、代わりに、他のグループでもより良いパフォーマンスを実現するグループに焦点を当てるが、共有/共通機能を学ぶことにつながる可能性がある。
論文 参考訳(メタデータ) (2021-10-06T09:47:41Z) - Overcoming Data Sparsity in Group Recommendation [52.00998276970403]
グループレコメンデータシステムは、ユーザの個人的な好みだけでなく、嗜好集約戦略も正確に学習できなければならない。
本稿では,BGEM(Bipartite Graphding Model)とGCN(Graph Convolutional Networks)を基本構造として,グループとユーザ表現を統一的に学習する。
論文 参考訳(メタデータ) (2020-10-02T07:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。