論文の概要: BiasGuard: Guardrailing Fairness in Machine Learning Production Systems
- arxiv url: http://arxiv.org/abs/2501.04142v1
- Date: Tue, 07 Jan 2025 21:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 16:10:19.502186
- Title: BiasGuard: Guardrailing Fairness in Machine Learning Production Systems
- Title(参考訳): BiasGuard: マシンラーニング生産システムにおけるガードレールの公正性
- Authors: Nurit Cohen-Inger, Seffi Cohen, Neomi Rabaev, Lior Rokach, Bracha Shapira,
- Abstract要約: 本稿では,生産型機械学習システムにおける公正ガードレールとして機能する,新しいアプローチであるBiasGuardを紹介する。
BiasGuardは、最先端の生成AIモデルであるCTGAN(Conditional Generative Adversarial Network)を活用したテスト時間拡張を活用して、反転保護された属性値に基づいて条件付きデータサンプルを合成する。
我々の総合的な実験分析により、BiasGuardは、非緩和ベンチマークと比較して精度を0.09%低下させながら、公平性を31%向上させることがわかった。
- 参考スコア(独自算出の注目度): 11.753349115726952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning (ML) systems increasingly impact critical sectors such as hiring, financial risk assessments, and criminal justice, the imperative to ensure fairness has intensified due to potential negative implications. While much ML fairness research has focused on enhancing training data and processes, addressing the outputs of already deployed systems has received less attention. This paper introduces 'BiasGuard', a novel approach designed to act as a fairness guardrail in production ML systems. BiasGuard leverages Test-Time Augmentation (TTA) powered by Conditional Generative Adversarial Network (CTGAN), a cutting-edge generative AI model, to synthesize data samples conditioned on inverted protected attribute values, thereby promoting equitable outcomes across diverse groups. This method aims to provide equal opportunities for both privileged and unprivileged groups while significantly enhancing the fairness metrics of deployed systems without the need for retraining. Our comprehensive experimental analysis across diverse datasets reveals that BiasGuard enhances fairness by 31% while only reducing accuracy by 0.09% compared to non-mitigated benchmarks. Additionally, BiasGuard outperforms existing post-processing methods in improving fairness, positioning it as an effective tool to safeguard against biases when retraining the model is impractical.
- Abstract(参考訳): 機械学習(ML)システムが雇用、金融リスク評価、刑事司法といった重要な分野に影響を及ぼすにつれ、潜在的にネガティブな影響により公正性を保証するための命令が強まった。
多くのMLフェアネス研究は、トレーニングデータとプロセスの強化に重点を置いているが、すでにデプロイされているシステムのアウトプットに対処することは、あまり注目されていない。
本稿では,実運用MLシステムにおいてフェアネスガードレールとして機能する新しいアプローチであるBiasGuardを紹介する。
BiasGuardは、最先端の生成AIモデルであるCTGAN(Conditional Generative Adversarial Network)を利用したテスト時間拡張(TTA)を活用して、逆保護属性値に条件付けられたデータサンプルを合成し、さまざまなグループ間で同等の結果を促進する。
本手法は, 再訓練を必要とせず, 運用システムの公平度を著しく向上させながら, 特権グループと特権グループの両方に平等な機会を提供することを目的とする。
多様なデータセットにわたる包括的実験分析により、BiasGuardは、非緩和ベンチマークと比較して精度を0.09%低下させながら、フェアネスを31%向上させることがわかった。
さらに、BiasGuardは、公正性を改善するために既存の後処理方法よりも優れており、モデルの再トレーニングが現実的でない場合にバイアスを防ぐ効果的なツールとして位置づけている。
関連論文リスト
- Benchmarking Bias Mitigation Toward Fairness Without Harm from Vision to LVLMs [14.88523903012028]
実世界のデータに基づいてトレーニングされた機械学習モデルは、特定の社会的グループに対するバイアスを継承し、増幅することが多い。
我々は、標準化されたデータ、メトリクス、トレーニングプロトコルの下で、公正性を損なうことなく統一されたベンチマークであるNH-Fairを紹介する。
論文 参考訳(メタデータ) (2026-02-03T08:37:37Z) - GShield: Mitigating Poisoning Attacks in Federated Learning [2.6260952524631787]
Federated Learning (FL) は、最近、機械学習モデルを協調訓練するための革命的なアプローチとして登場した。
データプライバシを保護しながら、分散モデルのトレーニングを可能にするが、その分散特性により、Data Poisoningとして知られる深刻な攻撃に対して、非常に脆弱である。
我々はGShieldと呼ばれる新しい防御機構を提案し、悪質で低品質な更新を検知・緩和する。
論文 参考訳(メタデータ) (2025-12-22T11:29:28Z) - Adversarial Bias: Data Poisoning Attacks on Fairness [48.17618627431355]
AIシステムの公正性を意図的に侵害する研究は比較的少ない。
本研究は, 簡便な敵毒対策が, 最大不公平な行動を引き起こすのに十分であることを示す理論的解析である。
当社の攻撃は、複数のモデルやデータセットにわたる公正度メトリクスの劣化において、既存の方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-11-11T15:09:53Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Filtering instances and rejecting predictions to obtain reliable models in healthcare [0.2524526956420465]
本稿では,機械学習モデルの性能向上のための2段階のデータ中心方式を提案する。
最初のステップは、インスタンスハードネス(IH)を活用して、トレーニング中の問題のあるインスタンスをフィルタリングする。
第2のステップでは、推論中に信頼に基づく拒絶機構を導入し、信頼性のある予測のみを保持する。
論文 参考訳(メタデータ) (2025-10-28T12:45:20Z) - Mitigating Bias in Facial Recognition Systems: Centroid Fairness Loss Optimization [9.537960917804993]
公正なAIシステムの社会的需要は、新しい公正性基準を満たす予測モデルを開発する研究コミュニティに圧力を与えている。
特に、特定の人口セグメントにまたがる特定の顔認識(FR)システムによる誤差の変動は、後者の展開を損なう。
本稿では,Centroid-based scores に作用する回帰損失を最適化することにより,事前学習されたFRモデルの公平性を改善するための新しいポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2025-04-27T22:17:44Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble [2.1450827490014865]
クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。
モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。
提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。
論文 参考訳(メタデータ) (2024-09-05T14:35:35Z) - BMFT: Achieving Fairness via Bias-based Weight Masking Fine-tuning [17.857930204697983]
Bias-based Weight Masking Fine-Tuning (BMFT) は、訓練されたモデルの公平性を大幅に向上させる新しい後処理手法である。
BMFTはモデルパラメータの上にマスクを生成し、偏りのある予測に最も寄与する重みを効率的に識別する。
4つの皮膚科学データセットと2つの感度特性による実験により、BMFTは診断精度と公正度の両方で既存の最先端(SOTA)技術より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-13T13:36:48Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Fair-CDA: Continuous and Directional Augmentation for Group Fairness [48.84385689186208]
公正な制約を課すための詳細なデータ拡張戦略を提案する。
グループ間の感性のある特徴の遷移経路のモデルを正規化することにより、グループフェアネスを実現することができることを示す。
提案手法はデータ生成モデルを仮定せず,精度と公平性の両方に優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-04-01T11:23:00Z) - A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference [4.478182379059458]
FidesはML-as-a-Service(ML)推論のリアルタイム整合性検証のための新しいフレームワークである。
Fidesは、統計的分析とばらつき測定を使用して、サービスモデルが攻撃を受けている場合、高い確率で識別するクライアント側攻撃検出モデルを備えている。
攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。
論文 参考訳(メタデータ) (2023-03-31T19:17:30Z) - On Comparing Fair Classifiers under Data Bias [42.43344286660331]
本研究では,データ偏差の変化が公正分類器の精度と公平性に及ぼす影響について検討する。
我々の実験は、既存のフェアネスダッシュボードにデータバイアスリスクの尺度を統合する方法を示している。
論文 参考訳(メタデータ) (2023-02-12T13:04:46Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z) - FORML: Learning to Reweight Data for Fairness [2.105564340986074]
メタラーニング(FORML)によるフェアネス最適化リヘアリングについて紹介する。
FORMLは、トレーニングサンプル重量とニューラルネットワークのパラメータを共同最適化することで、公正性の制約と精度のバランスを取る。
また,FORMLは,既存の最先端再重み付け手法に比べて,画像分類タスクで約1%,顔予測タスクで約5%向上することを示した。
論文 参考訳(メタデータ) (2022-02-03T17:36:07Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - SenSeI: Sensitive Set Invariance for Enforcing Individual Fairness [50.916483212900275]
まず、ある感度集合の不変性を強制する個別の公正性のバージョンを定式化する。
次に,輸送型正規化器を設計し,個別の公平性を強制し,効率よく正規化器を最小化するためのアルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-06-25T04:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。