論文の概要: Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models
- arxiv url: http://arxiv.org/abs/2503.07806v1
- Date: Mon, 10 Mar 2025 19:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.423833
- Title: Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models
- Title(参考訳): 全てに相応しい大規模言語モデルを目指して:逆行モデルにおけるグループフェアネスのベンチマーク
- Authors: Kefan Song, Jin Yao, Runnan Jiang, Rohan Chandra, Shangtong Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、ますます強力で、人間のユーザにとってアクセスしやすくなっている。
多様な人口集団、すなわちグループフェアネスの公平性を保証することは、批判的な倫理的関心事である。
この研究は、学習した報酬モデルのグループフェアネスをベンチマークする。
- 参考スコア(独自算出の注目度): 16.977176752570617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become increasingly powerful and accessible to human users, ensuring fairness across diverse demographic groups, i.e., group fairness, is a critical ethical concern. However, current fairness and bias research in LLMs is limited in two aspects. First, compared to traditional group fairness in machine learning classification, it requires that the non-sensitive attributes, in this case, the prompt questions, be the same across different groups. In many practical scenarios, different groups, however, may prefer different prompt questions and this requirement becomes impractical. Second, it evaluates group fairness only for the LLM's final output without identifying the source of possible bias. Namely, the bias in LLM's output can result from both the pretraining and the finetuning. For finetuning, the bias can result from both the RLHF procedure and the learned reward model. Arguably, evaluating the group fairness of each component in the LLM pipeline could help develop better methods to mitigate the possible bias. Recognizing those two limitations, this work benchmarks the group fairness of learned reward models. By using expert-written text from arXiv, we are able to benchmark the group fairness of reward models without requiring the same prompt questions across different demographic groups. Surprisingly, our results demonstrate that all the evaluated reward models (e.g., Nemotron-4-340B-Reward, ArmoRM-Llama3-8B-v0.1, and GRM-llama3-8B-sftreg) exhibit statistically significant group unfairness. We also observed that top-performing reward models (w.r.t. canonical performance metrics) tend to demonstrate better group fairness.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます強力になり、人類のユーザーにとってアクセスしやすくなり、多様な人口集団、すなわち集団の公正性に対する公平性を保証することが、批判的な倫理的関心事である。
しかしながら、LLMにおける現在の公正性とバイアスの研究は2つの側面に限られている。
第一に、機械学習の分類における伝統的なグループフェアネスと比較して、この場合、素早い質問は異なるグループで同じである必要がある。
しかし、多くの現実的なシナリオでは、異なるグループが異なる急進的な質問を好んでおり、この要件は実用的ではない。
第2に、LLMの最終出力に対してのみグループフェアネスを評価するが、バイアスの原因を特定できない。
すなわち、LCMの出力のバイアスは事前学習と微調整の両方から生じる。
微調整では、このバイアスはRLHFプロシージャと学習された報酬モデルの両方から生じる。
LLMパイプライン内の各コンポーネントのグループの公平性を評価することは、可能なバイアスを軽減するためのより良い方法を開発するのに役立つだろう。
この2つの制限を認識したこの研究は、学習された報酬モデルのグループフェアネスをベンチマークする。
arXivからの専門家によるテキストを使用することで、異なる人口集団間で同じプロンプト質問を必要とせず、報酬モデルのグループフェアネスをベンチマークすることができる。
その結果, 評価された報酬モデル(Nemotron-4-340B-Reward, ArmoRM-Llama3-8B-v0.1, GRM-llama3-8B-sftreg)は, 統計的に有意なグループ不公平性を示した。
また,トップパフォーマンスの報酬モデル (w.r.t.canonical performance metrics) では,グループフェアネスが向上する傾向を示した。
関連論文リスト
- FairLoRA: Unpacking Bias Mitigation in Vision Models with Fairness-Driven Low-Rank Adaptation [3.959853359438669]
低ランク適応のための新しいフェアネス特化正規化器であるFairLoRAについて紹介する。
以上の結果から,偏見を緩和するためのより高いランクの必要性は普遍的ではなく,事前学習モデルやデータセット,タスクといった要因に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-22T18:50:36Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Inducing Group Fairness in Prompt-Based Language Model Decisions [12.964746511263833]
新たなプロンプトベース言語モデル(LM)決定は、分類タスクを解く新しい機会を生み出した。
LMベースの意思決定者にとって「修復ツールキット」は不完全であり、意思決定者グループフェアネスを改善する方法についてはほとんど理解されていない。
論文 参考訳(メタデータ) (2024-06-24T15:45:20Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Fair Abstractive Summarization of Diverse Perspectives [103.08300574459783]
公平な要約は、特定のグループを過小評価することなく、多様な視点を包括的にカバーしなければなりません。
はじめに、抽象的な要約における公正性は、いかなる集団の視点にも過小評価されないものとして、正式に定義する。
本研究では,対象視点と対象視点の差を測定することで,基準のない4つの自動計測手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T03:38:55Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - UP5: Unbiased Foundation Model for Fairness-aware Recommendation [45.47673627667594]
大規模言語モデルが必然的に社会的なステレオタイプを永続させ、不公平なレコメンデーションをもたらすのではないかという懸念が高まっている。
本稿は,性別や年齢などのセンシティブな特徴に公正であるように,レコメンデーションシステムを必要とする,LDMベースの推薦に対するユーザ側の公正性に焦点を当てる。
フェアネスを意識したLLMレコメンデーションのための新しいCFP法をUnbiased Foundation mOdels(UFO)に導入する。
論文 参考訳(メタデータ) (2023-05-20T04:32:59Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - On Comparing Fair Classifiers under Data Bias [42.43344286660331]
本研究では,データ偏差の変化が公正分類器の精度と公平性に及ぼす影響について検討する。
我々の実験は、既存のフェアネスダッシュボードにデータバイアスリスクの尺度を統合する方法を示している。
論文 参考訳(メタデータ) (2023-02-12T13:04:46Z) - Learning Informative Representation for Fairness-aware Multivariate
Time-series Forecasting: A Group-based Perspective [50.093280002375984]
多変量時系列予測モデル(MTS)では変数間の性能不公平性が広く存在する。
フェアネスを意識したMTS予測のための新しいフレームワークであるFairForを提案する。
論文 参考訳(メタデータ) (2023-01-27T04:54:12Z) - How Robust is Your Fairness? Evaluating and Sustaining Fairness under
Unseen Distribution Shifts [107.72786199113183]
CUMA(CUrvature Matching)と呼ばれる新しいフェアネス学習手法を提案する。
CUMAは、未知の分布シフトを持つ未知の領域に一般化可能な頑健な公正性を達成する。
提案手法を3つの人気フェアネスデータセットで評価する。
論文 参考訳(メタデータ) (2022-07-04T02:37:50Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Recovering from Biased Data: Can Fairness Constraints Improve Accuracy? [11.435833538081557]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、バイアスがあるだけでなく、真のデータ分布に最適な精度を持つ分類器を生成する。
公平性に制約されたERMによるこの問題の是正能力について検討する。
また、トレーニングデータの再重み付け、等化オッド、復号化パリティなど、他のリカバリ手法についても検討する。
論文 参考訳(メタデータ) (2019-12-02T22:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。