論文の概要: SharedRep-RLHF: A Shared Representation Approach to RLHF with Diverse Preferences
- arxiv url: http://arxiv.org/abs/2509.03672v1
- Date: Wed, 03 Sep 2025 19:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.956397
- Title: SharedRep-RLHF: A Shared Representation Approach to RLHF with Diverse Preferences
- Title(参考訳): SharedRep-RLHF:RLHFの多様性を考慮した共有表現手法
- Authors: Arpan Mukherjee, Marcello Bullo, Deniz Gündüz,
- Abstract要約: 人間からのフィードバック(RLHF)からの一様回帰学習は、サブ人口間での意見の多様性を捉えるのに失敗する。
この欠点を軽減するために、SharedRep-RLHFと呼ばれる新しいフレームワークを導入する。
SharedRep-RLHFは、共有特性の学習において、確実にサブ最適であり、次にサンプルの複雑さを定量化する。
- 参考スコア(独自算出の注目度): 42.88222564741455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uniform-reward reinforcement learning from human feedback (RLHF), which trains a single reward model to represent the preferences of all annotators, fails to capture the diversity of opinions across sub-populations, inadvertently favoring dominant groups. The state-of-the-art, MaxMin-RLHF, addresses this by learning group-specific reward models, and by optimizing for the group receiving the minimum reward, thereby promoting fairness. However, we identify that a key limitation of MaxMin-RLHF is its poor performance when the minimum-reward group is a minority. To mitigate this drawback, we introduce a novel framework, termed {\em SharedRep-RLHF}. At its core, SharedRep-RLHF learns and leverages {\em shared traits} in annotations among various groups, in contrast to learning separate reward models across groups. We first show that MaxMin-RLHF is provably suboptimal in learning shared traits, and then quantify the sample complexity of SharedRep-RLHF. Experiments across diverse natural language tasks showcase the effectiveness of SharedRep-RLHF compared to MaxMin-RLHF with a gain of up to 20% in win rate.
- Abstract(参考訳): すべてのアノテータの嗜好を表現するために単一の報酬モデルを訓練するRLHF(英語版)からの一様回帰強化学習は、サブ人口間で意見の多様性を捉えず、必然的に支配的なグループを優先する。
最先端のMaxMin-RLHFは、グループ固有の報酬モデルを学び、最小報酬を受けるグループを最適化することにより、公正性を促進する。
しかし、MaxMin-RLHF の鍵となる制限は、最小逆群が少数群であるときの性能が劣るものである。
この欠点を緩和するために、我々は {\em SharedRep-RLHF} と呼ばれる新しいフレームワークを導入する。
SharedRep-RLHFの中核は、グループ間で異なる報酬モデルを学ぶのとは対照的に、さまざまなグループ間のアノテーションで {\em Share traits} を学び、活用している。
最初に、MaxMin-RLHFが共有特性の学習において確実に準最適であることを示し、次にSharedRep-RLHFのサンプル複雑性を定量化する。
様々な自然言語タスクに対する実験は、最大20%の勝利率で、MaxMin-RLHFと比較してSharedRep-RLHFの有効性を示す。
関連論文リスト
- Generative RLHF-V: Learning Principles from Multi-modal Human Preference [15.068452240642884]
我々は、GRMとマルチモーダルRLHFを統合する新しいアライメントフレームワーク、Generative RLHF-Vを紹介する。
RL$の2段階のパイプラインを提案する: $textbfmulti-modalgenerative reward Modeling from RL$, そこでは、RLがGRMを誘導し、人間の意図を積極的に捉え、正しいペアワイズスコアを予測する。
我々のフレームワークは7つのベンチマークで4つのMLLMのパフォーマンスを18.1%$で改善し、ベースラインのRLHFは5.3%$でしかない。
論文 参考訳(メタデータ) (2025-05-24T05:50:07Z) - Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
Preference As Reward (PAR) は、報酬モデルに埋め込まれた潜在的嗜好を強化学習の信号として活用する新しいアプローチである。
AlpacaEval 2.0ベンチマークでは、PARは競合するアプローチよりも少なくとも5パーセント高い勝利率を達成する。
論文 参考訳(メタデータ) (2025-02-26T02:57:59Z) - Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model [96.20350225621813]
人間からのフィードバックからの強化学習(RLHF)は、言語モデル(LM)を人間の好みに合わせるために広く採用されている。
本稿では,セグメントレベルの報酬モデルを用いて,学習と活用の両面での優位性を追求する。
論文 参考訳(メタデータ) (2025-01-06T06:17:56Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。