論文の概要: Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models
- arxiv url: http://arxiv.org/abs/2503.07806v1
- Date: Mon, 10 Mar 2025 19:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:37.942980
- Title: Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models
- Title(参考訳): 全てに相応しい大規模言語モデルを目指して:逆行モデルにおけるグループフェアネスのベンチマーク
- Authors: Kefan Song, Jin Yao, Runnan Jiang, Rohan Chandra, Shangtong Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、ますます強力で、人間のユーザにとってアクセスしやすくなっている。
多様な人口集団、すなわちグループフェアネスの公平性を保証することは、批判的な倫理的関心事である。
この研究は、学習した報酬モデルのグループフェアネスをベンチマークする。
- 参考スコア(独自算出の注目度): 16.977176752570617
- License:
- Abstract: As Large Language Models (LLMs) become increasingly powerful and accessible to human users, ensuring fairness across diverse demographic groups, i.e., group fairness, is a critical ethical concern. However, current fairness and bias research in LLMs is limited in two aspects. First, compared to traditional group fairness in machine learning classification, it requires that the non-sensitive attributes, in this case, the prompt questions, be the same across different groups. In many practical scenarios, different groups, however, may prefer different prompt questions and this requirement becomes impractical. Second, it evaluates group fairness only for the LLM's final output without identifying the source of possible bias. Namely, the bias in LLM's output can result from both the pretraining and the finetuning. For finetuning, the bias can result from both the RLHF procedure and the learned reward model. Arguably, evaluating the group fairness of each component in the LLM pipeline could help develop better methods to mitigate the possible bias. Recognizing those two limitations, this work benchmarks the group fairness of learned reward models. By using expert-written text from arXiv, we are able to benchmark the group fairness of reward models without requiring the same prompt questions across different demographic groups. Surprisingly, our results demonstrate that all the evaluated reward models (e.g., Nemotron-4-340B-Reward, ArmoRM-Llama3-8B-v0.1, and GRM-llama3-8B-sftreg) exhibit statistically significant group unfairness. We also observed that top-performing reward models (w.r.t. canonical performance metrics) tend to demonstrate better group fairness.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます強力になり、人類のユーザーにとってアクセスしやすくなり、多様な人口集団、すなわち集団の公正性に対する公平性を保証することが、批判的な倫理的関心事である。
しかしながら、LLMにおける現在の公正性とバイアスの研究は2つの側面に限られている。
第一に、機械学習の分類における伝統的なグループフェアネスと比較して、この場合、素早い質問は異なるグループで同じである必要がある。
しかし、多くの現実的なシナリオでは、異なるグループが異なる急進的な質問を好んでおり、この要件は実用的ではない。
第2に、LLMの最終出力に対してのみグループフェアネスを評価するが、バイアスの原因を特定できない。
すなわち、LCMの出力のバイアスは事前学習と微調整の両方から生じる。
微調整では、このバイアスはRLHFプロシージャと学習された報酬モデルの両方から生じる。
LLMパイプライン内の各コンポーネントのグループの公平性を評価することは、可能なバイアスを軽減するためのより良い方法を開発するのに役立つだろう。
この2つの制限を認識したこの研究は、学習された報酬モデルのグループフェアネスをベンチマークする。
arXivからの専門家によるテキストを使用することで、異なる人口集団間で同じプロンプト質問を必要とせず、報酬モデルのグループフェアネスをベンチマークすることができる。
その結果, 評価された報酬モデル(Nemotron-4-340B-Reward, ArmoRM-Llama3-8B-v0.1, GRM-llama3-8B-sftreg)は, 統計的に有意なグループ不公平性を示した。
また,トップパフォーマンスの報酬モデル (w.r.t.canonical performance metrics) では,グループフェアネスが向上する傾向を示した。
関連論文リスト
- FairLoRA: Unpacking Bias Mitigation in Vision Models with Fairness-Driven Low-Rank Adaptation [3.959853359438669]
低ランク適応のための新しいフェアネス特化正規化器であるFairLoRAについて紹介する。
以上の結果から,偏見を緩和するためのより高いランクの必要性は普遍的ではなく,事前学習モデルやデータセット,タスクといった要因に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-22T18:50:36Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Fair Abstractive Summarization of Diverse Perspectives [103.08300574459783]
公平な要約は、特定のグループを過小評価することなく、多様な視点を包括的にカバーしなければなりません。
はじめに、抽象的な要約における公正性は、いかなる集団の視点にも過小評価されないものとして、正式に定義する。
本研究では,対象視点と対象視点の差を測定することで,基準のない4つの自動計測手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T03:38:55Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Learning Informative Representation for Fairness-aware Multivariate
Time-series Forecasting: A Group-based Perspective [50.093280002375984]
多変量時系列予測モデル(MTS)では変数間の性能不公平性が広く存在する。
フェアネスを意識したMTS予測のための新しいフレームワークであるFairForを提案する。
論文 参考訳(メタデータ) (2023-01-27T04:54:12Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Recovering from Biased Data: Can Fairness Constraints Improve Accuracy? [11.435833538081557]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、バイアスがあるだけでなく、真のデータ分布に最適な精度を持つ分類器を生成する。
公平性に制約されたERMによるこの問題の是正能力について検討する。
また、トレーニングデータの再重み付け、等化オッド、復号化パリティなど、他のリカバリ手法についても検討する。
論文 参考訳(メタデータ) (2019-12-02T22:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。