論文の概要: Towards Reward Fairness in RLHF: From a Resource Allocation Perspective
- arxiv url: http://arxiv.org/abs/2505.23349v1
- Date: Thu, 29 May 2025 11:12:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.825877
- Title: Towards Reward Fairness in RLHF: From a Resource Allocation Perspective
- Title(参考訳): RLHFにおけるリワードフェアネスに向けて:資源配分の視点から
- Authors: Sheng Ouyang, Yulan Hu, Ge Chen, Qingyang Li, Fuzheng Zhang, Yong Liu,
- Abstract要約: 本稿では、報奨における様々なバイアスを、報奨の不公平性の問題として包括的に定義する。
本稿では,資源配分の観点から報酬公平性の問題に対処するためのバイアス非依存手法を提案する。
- 参考スコア(独自算出の注目度): 16.82198859401237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rewards serve as proxies for human preferences and play a crucial role in Reinforcement Learning from Human Feedback (RLHF). However, if these rewards are inherently imperfect, exhibiting various biases, they can adversely affect the alignment of large language models (LLMs). In this paper, we collectively define the various biases present in rewards as the problem of reward unfairness. We propose a bias-agnostic method to address the issue of reward fairness from a resource allocation perspective, without specifically designing for each type of bias, yet effectively mitigating them. Specifically, we model preference learning as a resource allocation problem, treating rewards as resources to be allocated while considering the trade-off between utility and fairness in their distribution. We propose two methods, Fairness Regularization and Fairness Coefficient, to achieve fairness in rewards. We apply our methods in both verification and reinforcement learning scenarios to obtain a fairness reward model and a policy model, respectively. Experiments conducted in these scenarios demonstrate that our approach aligns LLMs with human preferences in a more fair manner.
- Abstract(参考訳): リワードは人間の好みのプロキシとして機能し、RLHF(Reinforcement Learning from Human Feedback)において重要な役割を果たす。
しかし、これらの報酬が本質的に不完全であり、様々なバイアスを示す場合、大きな言語モデル(LLM)のアライメントに悪影響を及ぼす可能性がある。
本稿では、報奨における様々なバイアスを、報奨の不公平性の問題として包括的に定義する。
本稿では,資源配分の観点からの報酬公平性の問題に対処するバイアス非依存の手法を提案する。
具体的には、選好学習を資源配分問題としてモデル化し、資源として報酬を配分すると同時に、その流通における実用性と公正性のトレードオフを考察する。
報奨の公平性を達成するために,フェアネス正規化とフェアネス係数の2つの手法を提案する。
本手法を検証および強化学習シナリオに適用し,公正報酬モデルとポリシーモデルを得る。
これらのシナリオで行った実験により、我々のアプローチはより公平な方法でLLMと人間の嗜好を一致させることを示した。
関連論文リスト
- Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - Towards Improving Reward Design in RL: A Reward Alignment Metric for RL Practitioners [15.25763345316458]
強化学習エージェントは、彼らが学んだ報酬関数の品質によって、基本的に制限されている。
本稿では, 人的利害関係者の軌道分布ランキングと, 与えられた報酬関数によって誘導されるものとの類似性を定量化するために, トラジェクティブアライメント係数を導入する。
論文 参考訳(メタデータ) (2025-03-08T00:38:17Z) - Fairness Aware Reinforcement Learning via Proximal Policy Optimization [7.061167083587786]
本稿では,PPOにおける公正性について,人口統計学的公正性,対実的公正性,条件的統計的公正性から導かれるペナルティ項について紹介する。
我々は,資源収集に焦点を当てた協調的かつ競争的なMASであるAlelopathic Harvestゲームにおいて,我々のアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-06T10:45:55Z) - Towards Harmless Rawlsian Fairness Regardless of Demographic Prior [57.30787578956235]
トレーニングセットに事前の人口統計が提供されない場合に,有効性を損なうことなく公平性を達成する可能性を探る。
本稿では,経験的損失の最適セット内でのトレーニング損失の分散を最小限に抑えるため,VFairという簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:40:34Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Towards Equal Opportunity Fairness through Adversarial Learning [64.45845091719002]
逆行訓練は、自然言語処理におけるバイアス緩和の一般的なアプローチである。
本稿では、よりリッチな特徴を生み出すために、ターゲットクラスをインプットとして利用する、対位訓練のための拡張判別器を提案する。
論文 参考訳(メタデータ) (2022-03-12T02:22:58Z) - Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning
with Average and Discounted Rewards [15.082715993594121]
利用者を公平に扱う政策を学習することの問題点について検討する。
本稿では、公正性の概念を符号化する目的関数を最適化する、この新しいRL問題を定式化する。
いくつかの古典的深部RLアルゴリズムが、我々の公正な最適化問題にどのように適応できるかを述べる。
論文 参考訳(メタデータ) (2020-08-18T07:17:53Z) - Recovering from Biased Data: Can Fairness Constraints Improve Accuracy? [11.435833538081557]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、バイアスがあるだけでなく、真のデータ分布に最適な精度を持つ分類器を生成する。
公平性に制約されたERMによるこの問題の是正能力について検討する。
また、トレーニングデータの再重み付け、等化オッド、復号化パリティなど、他のリカバリ手法についても検討する。
論文 参考訳(メタデータ) (2019-12-02T22:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。