論文の概要: GenFair: Systematic Test Generation for Fairness Fault Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.03024v1
- Date: Tue, 03 Jun 2025 16:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.441668
- Title: GenFair: Systematic Test Generation for Fairness Fault Detection in Large Language Models
- Title(参考訳): GenFair:大規模言語モデルにおけるフェアネス故障検出のための系統的テスト生成
- Authors: Madhusudan Srinivasan, Jubril Abdel,
- Abstract要約: 大規模言語モデル(LLM)は、ますます重要なドメインにデプロイされるようになっているが、トレーニングデータから受け継がれたバイアスがしばしば現れ、公平性に関する懸念がもたらされる。
この研究は、フェアネス違反を効果的に検出する問題、特に既存のテンプレートベースおよび文法ベースのテスト手法でしばしば見逃される交叉バイアスに焦点をあてる。
我々は、同値分割、突然変異演算子、境界値解析を用いて、ソーステストケースを生成する変成フェアネステストフレームワークGenFairを提案する。
- 参考スコア(独自算出の注目度): 0.12891210250935142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in critical domains, yet they often exhibit biases inherited from training data, leading to fairness concerns. This work focuses on the problem of effectively detecting fairness violations, especially intersectional biases that are often missed by existing template-based and grammar-based testing methods. Previous approaches, such as CheckList and ASTRAEA, provide structured or grammar-driven test generation but struggle with low test diversity and limited sensitivity to complex demographic interactions. To address these limitations, we propose GenFair, a metamorphic fairness testing framework that systematically generates source test cases using equivalence partitioning, mutation operators, and boundary value analysis. GenFair improves fairness testing by generating linguistically diverse, realistic, and intersectional test cases. It applies metamorphic relations (MR) to derive follow-up cases and detects fairness violations via tone-based comparisons between source and follow-up responses. In experiments with GPT-4.0 and LLaMA-3.0, GenFair outperformed two baseline methods. It achieved a fault detection rate (FDR) of 0.73 (GPT-4.0) and 0.69 (LLaMA-3.0), compared to 0.54/0.51 for template-based and 0.39/0.36 for ASTRAEA. GenFair also showed the highest test case diversity (syntactic:10.06, semantic: 76.68) and strong coherence (syntactic: 291.32, semantic: 0.7043), outperforming both baselines. These results demonstrate the effectiveness of GenFair in uncovering nuanced fairness violations. The proposed method offers a scalable and automated solution for fairness testing and contributes to building more equitable LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ますます重要なドメインにデプロイされるようになっているが、トレーニングデータから受け継がれたバイアスがしばしば現れ、公平性に関する懸念がもたらされる。
この研究は、フェアネス違反を効果的に検出する問題、特に既存のテンプレートベースおよび文法ベースのテスト手法でしばしば見逃される交叉バイアスに焦点をあてる。
CheckListやASTRAEAといった従来のアプローチは、構造化または文法駆動のテスト生成を提供するが、テストの多様性が低く、複雑な層間相互作用に対する感度が制限されている。
これらの制約に対処するために、同値分割、突然変異演算子、境界値解析を用いて、ソーステストケースを体系的に生成する変成フェアネステストフレームワークであるGenFairを提案する。
GenFairは言語的に多様性があり、現実的で、交差するテストケースを生成することによって、公正テストを改善する。
フォローアップケースの導出にメタモルフィック・リレーション(MR)を適用し、ソースとフォローアップ応答のトーンに基づく比較を通じてフェアネス違反を検出する。
GPT-4.0とLLaMA-3.0の実験では、GenFairは2つのベースライン法より優れていた。
故障検出率(FDR)は0.73(GPT-4.0)と0.69(LLaMA-3.0)で、テンプレートベースは0.54/0.51、ASTRAEAは0.39/0.36であった。
GenFairはまた、最も高いテストケースの多様性(シンタクティック:10.06、セマンティック:76.68)と強いコヒーレンス(シンタクティック:291.32、セマンティック:0.7043)を示し、両方のベースラインを上回った。
これらの結果から,GenFairが不公平な公正違反を明らかにする効果が示された。
提案手法は、公平性テストのためのスケーラブルで自動化されたソリューションを提供し、より公平なLCMの構築に寄与する。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文 参考訳(メタデータ) (2025-04-04T21:04:14Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Fairness Without Harm: An Influence-Guided Active Sampling Approach [32.173195437797766]
我々は、モデルの精度に害を与えることなく、グループフェアネスの格差を軽減するモデルを訓練することを目指している。
公正なアクティブな学習アプローチのような現在のデータ取得方法は、通常、アノテートセンシティブな属性を必要とする。
トレーニンググループアノテーションに依存しない抽出可能なアクティブデータサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T07:57:38Z) - Fairness-enhancing mixed effects deep learning improves fairness on in- and out-of-distribution clustered (non-iid) data [6.596656267996196]
フェア・ミックスド・エフェクト・ディープ・ラーニング(Fair MEDL)フレームワークを提案する。
本フレームワークは,1)不変なFEを学習するためのクラスタ逆効果,2)REのためのベイズニューラルネットワーク,3)最終的な予測のためにFEとREを組み合わせた混合関数,を通じて,クラスタ不変な固定効果(FE)とクラスタ固有ランダムエフェクト(RE)を定量化する。
公正なMEDLフレームワークは、年齢で86.4%、人種で64.9%、性で57.8%、結婚で36.2%の公正性を向上し、堅牢な予測性能を維持している。
論文 参考訳(メタデータ) (2023-10-04T20:18:45Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - On Comparing Fair Classifiers under Data Bias [42.43344286660331]
本研究では,データ偏差の変化が公正分類器の精度と公平性に及ぼす影響について検討する。
我々の実験は、既存のフェアネスダッシュボードにデータバイアスリスクの尺度を統合する方法を示している。
論文 参考訳(メタデータ) (2023-02-12T13:04:46Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。