論文の概要: Fairness Aware Reward Optimization
- arxiv url: http://arxiv.org/abs/2602.07799v1
- Date: Sun, 08 Feb 2026 03:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.806575
- Title: Fairness Aware Reward Optimization
- Title(参考訳): フェアネスアウェア・リワード最適化
- Authors: Ching Lam Choi, Vighnesh Subramaniam, Phillip Isola, Antonio Torralba, Stefanie Jegelka,
- Abstract要約: 本稿では,Fairness Aware Reward Optimization (Faro)を紹介した。Fairness Aware Reward Optimization (Faro)は,階層的平等,等化オッズ,あるいは反実的フェアネス制約の下で報酬モデルを訓練するプロセス内フレームワークである。
LLMアライメントにおける報酬レベルの公平性に関する最初の理論的解析を行った。
Faroはモデルの品質を維持したり改善したりしながら、バイアスや有害な世代を著しく削減します。
- 参考スコア(独自算出の注目度): 78.85867531002346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Demographic skews in human preference data propagate systematic unfairness through reward models into aligned LLMs. We introduce Fairness Aware Reward Optimization (Faro), an in-processing framework that trains reward models under demographic parity, equalized odds, or counterfactual fairness constraints. We provide the first theoretical analysis of reward-level fairness in LLM alignment, establishing: (i) provable fairness certificates for Faro-trained rewards with controllable slack; a (ii) formal characterization of the accuracy-fairness trade-off induced by KL-regularized fine-tuning, proving fairness transfers from reward to policy; and the (iii) existence of a non-empty Pareto frontier. Unlike pre- and post-processing methods, Faro ensures reward models are simultaneously ordinal (ranking correctly), cardinal (calibrated), and fair. Across multiple LLMs and benchmarks, Faro significantly reduces bias and harmful generations while maintaining or improving model quality.
- Abstract(参考訳): 人間の嗜好データにおけるデモグラフィックスキューは、報酬モデルを通して体系的に不公平を伝播する。
本稿では,Fairness Aware Reward Optimization (Faro)を紹介した。Fairness Aware Reward Optimization (Faro)は,階層的平等,等化オッズ,あるいは反実的フェアネス制約の下で報酬モデルを訓練するプロセス内フレームワークである。
LLMアライメントにおける報酬レベルの公平性に関する最初の理論的解析を行い、以下のことを確立した。
i) 制御可能なスラック付きファロ訓練報酬の証明可能な公正証明書
二 報酬から政策への公正移転を証明したKL調整細調整による正当性トレードオフの形式的特徴
(三)空でないパレートフロンティアが存在すること。
前処理と後処理とは異なり、ファロは報酬モデルが同時に順序付け(正しいランク付け)、基数付け(校正)、公正であることを保証する。
複数のLLMとベンチマークで、Faraはモデルの品質を維持したり改善したりしながら、バイアスや有害な世代を著しく削減します。
関連論文リスト
- Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Guiding LLM Decision-Making with Fairness Reward Models [12.32062012708603]
大規模な言語モデルは、高い意思決定をサポートするためにますます使われています。
本稿では,一般化可能なフェアネス・リワードモデルをトレーニングするためのフレームワークを提案する。
提案手法は,基準値の精度を一致させたり,超えたりしながら,一貫した公正性の向上を図っている。
論文 参考訳(メタデータ) (2025-07-15T14:20:23Z) - BiFair: A Fairness-aware Training Framework for LLM-enhanced Recommender Systems via Bi-level Optimization [13.187285894531275]
BiFairは、事前トレーニングと不公平トレーニングの両方を同時に緩和するために設計された公正対応のトレーニングフレームワークである。
3つの実世界のデータセットに対する大規模な実験は、BiFairが不公平を著しく軽減し、従来の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2025-07-06T08:39:26Z) - FedFACT: A Provable Framework for Controllable Group-Fairness Calibration in Federated Learning [23.38141950440522]
我々はFedFACTという制御可能なグループフェアネス校正フレームワークを提案する。
FedFACTは、大域的および局所的公正性の制約の下でベイズ最適分類器を識別する。
我々は,FedFACTが精度とグローバル・ローカル・フェアネスのバランスをとる上で,ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-06-04T09:39:57Z) - The Other Side of the Coin: Exploring Fairness in Retrieval-Augmented Generation [73.16564415490113]
Retrieval-Augmented Generation (RAG)は、外部の知識ソースから関連文書を取得することにより、Large Language Models (LLM)を強化する。
本稿では,小規模LLMにおいてRAGが導入した公平性問題を軽減するために,FairFTとFairFilterの2つのアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-11T10:17:10Z) - FairLoRA: Unpacking Bias Mitigation in Vision Models with Fairness-Driven Low-Rank Adaptation [3.959853359438669]
低ランク適応のための新しいフェアネス特化正規化器であるFairLoRAについて紹介する。
以上の結果から,偏見を緩和するためのより高いランクの必要性は普遍的ではなく,事前学習モデルやデータセット,タスクといった要因に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-22T18:50:36Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Fairness Reprogramming [42.65700878967251]
モデル再プログラミング手法を取り入れたFairRe Programと呼ばれる新しい汎用フェアネス学習パラダイムを提案する。
具体的には、FairRe Programはモデルを変更することができず、フェアネストリガと呼ばれる一連の摂動を入力に追加するケースについて検討している。
我々は,固定MLモデルの出力予測において,公平性トリガが効果的に人口統計バイアスを曖昧にすることができることを理論的および実証的に示す。
論文 参考訳(メタデータ) (2022-09-21T09:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。