Fugu-MT 論文翻訳(概要): Towards Fair Machine Learning Software: Understanding and Addressing Model Bias Through Counterfactual Thinking

論文の概要: Towards Fair Machine Learning Software: Understanding and Addressing Model Bias Through Counterfactual Thinking

arxiv url: http://arxiv.org/abs/2302.08018v1
Date: Thu, 16 Feb 2023 01:27:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-17 15:19:35.910115
Title: Towards Fair Machine Learning Software: Understanding and Addressing Model Bias Through Counterfactual Thinking
Title（参考訳）: 公正な機械学習ソフトウェアを目指して : 対物思考によるモデルバイアスの理解と対処
Authors: Zichong Wang, Yang Zhou, Meikang Qiu, Israat Haque, Laura Brown, Yi He, Jianwu Wang, David Lo and Wenbin Zhang
Abstract要約: 本稿では,機械学習ソフトウェアにおけるバイアスの根本原因に対処するための新しい対策手法を提案する。提案手法は,性能と公平性の両方に最適化されたモデルを組み合わせることで,両面において最適解となる。
参考スコア（独自算出の注目度）: 16.196269707571904
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The increasing use of Machine Learning (ML) software can lead to unfair and unethical decisions, thus fairness bugs in software are becoming a growing concern. Addressing these fairness bugs often involves sacrificing ML performance, such as accuracy. To address this issue, we present a novel counterfactual approach that uses counterfactual thinking to tackle the root causes of bias in ML software. In addition, our approach combines models optimized for both performance and fairness, resulting in an optimal solution in both aspects. We conducted a thorough evaluation of our approach on 10 benchmark tasks using a combination of 5 performance metrics, 3 fairness metrics, and 15 measurement scenarios, all applied to 8 real-world datasets. The conducted extensive evaluations show that the proposed method significantly improves the fairness of ML software while maintaining competitive performance, outperforming state-of-the-art solutions in 84.6% of overall cases based on a recent benchmarking tool.
Abstract（参考訳）: 機械学習(ML)ソフトウェアの使用の増加は不公平で非倫理的な決定につながる可能性があるため、ソフトウェアの公平性に関するバグが懸念されている。これらの公正なバグに対処するには、精度などのMLパフォーマンスを犠牲にすることが多い。本稿では,機械学習ソフトウェアにおけるバイアスの根本原因に取り組むために,反事実的思考を用いた新しい反事実的アプローチを提案する。さらに、性能と公平性の両方に最適化されたモデルを組み合わせて、両方の面において最適なソリューションを作ります。 5つのパフォーマンス指標,3つのフェアネス指標,15の計測シナリオを組み合わせて,実世界の8つのデータセットに適用した10のベンチマークタスクに対して,我々のアプローチを徹底的に評価した。提案手法は,競争性能を維持しつつ,MLソフトウェアの公正性を著しく向上し,最近のベンチマークツールによる全体の84.6%において,最先端のソリューションよりも優れていた。

関連論文リスト

Holistic Evaluation of State-of-the-Art LLMs for Code Generation [5.504955093712013]
DeepSeek-R1 と GPT-4.1 は、正確性、効率、堅牢性という点で他より一貫して優れている。構文エラーや論理的欠陥,最適化アルゴリズムといった,一般的な障害シナリオを特定します。
論文参考訳（メタデータ） (2025-12-19T23:29:05Z)
Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文参考訳（メタデータ） (2025-05-29T20:45:18Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Contextual Fairness-Aware Practices in ML: A Cost-Effective Empirical Evaluation [48.943054662940916]
フェアネス・アウェアの実践を文脈的・費用対効果という2つの観点から検討する。本研究は,文脈が公正な実践の有効性にどのように影響するかを考察する。本研究の目的は,SE実践者に対して,最小パフォーマンスコストで公正性を実現するプラクティスの選択を指導することである。
論文参考訳（メタデータ） (2025-03-19T18:10:21Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
Analyzing Fairness of Computer Vision and Natural Language Processing Models [1.0923877073891446]
機械学習(ML)アルゴリズムは、医療、金融、教育、法執行など、さまざまな分野における意思決定において重要な役割を果たす。広く採用されているにもかかわらず、これらのシステムは潜在的なバイアスや公平性の問題のために倫理的・社会的懸念を提起する。本研究では,非構造化データセットに適用したコンピュータビジョンと自然言語処理(NLP)モデルの公平性の評価と改善に焦点を当てた。
論文参考訳（メタデータ） (2024-12-13T06:35:55Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
Fair Bilevel Neural Network (FairBiNN): On Balancing fairness and accuracy via Stackelberg Equilibrium [0.3350491650545292]
バイアスを緩和する現在の方法は、情報損失と精度と公平性のバランスが不十分であることが多い。本稿では,二段階最適化の原理に基づく新しい手法を提案する。私たちのディープラーニングベースのアプローチは、正確性と公平性の両方を同時に最適化します。
論文参考訳（メタデータ） (2024-10-21T18:53:39Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
On Task Performance and Model Calibration with Supervised and Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文参考訳（メタデータ） (2023-12-21T11:55:10Z)
A First Look at Fairness of Machine Learning Based Code Reviewer Recommendation [14.50773969815661]
本稿では,ソフトウェア工学(SE)分野におけるMLアプリケーションの公平性に関する最初の研究を行う。我々の実証研究は、現在最先端のMLベースのコードレビュアーレコメンデーション技術が不公平で差別的な行動を示すことを示している。本稿では,MLベースのコードレビュアレコメンデーションシステムが不公平である理由についても論じ,不公平を緩和するための解決策を提供する。
論文参考訳（メタデータ） (2023-07-21T01:57:51Z)
Fix Fairness, Don't Ruin Accuracy: Performance Aware Fairness Repair using AutoML [18.17660645381856]
本稿では、自動機械学習(AutoML)技術を用いてバイアスを軽減する新しい手法を提案する。 AutoMLのデフォルトの最適化機能を改善し、公平さの目標を取り入れることで、バイアスをほとんど、あるいは全く精度を損なわずに軽減することが可能になります。 Fair-AutoMLは64例中60例を修復し,既存のバイアス緩和法は64例中44例を修復した。
論文参考訳（メタデータ） (2023-06-15T17:25:15Z)
FITNESS: A Causal De-correlation Approach for Mitigating Bias in Machine Learning Software [6.4073906779537095]
バイアスデータセットは不公平で潜在的に有害な結果をもたらす可能性がある。本稿では,感性特徴とラベルの因果関係を関連づけたバイアス緩和手法を提案する。我々のキーとなる考え方は、因果関係の観点からそのような効果を非相関化することで、モデルが繊細な特徴に基づいて予測することを避けることである。
論文参考訳（メタデータ） (2023-05-23T06:24:43Z)
A Comprehensive Empirical Study of Bias Mitigation Methods for Software Fairness [27.67313504037565]
本稿では,バイアス緩和手法の大規模かつ包括的評価について述べる。バイアス緩和法は,12の機械学習(ML)性能指標,4つのフェアネス指標,24種類のフェアネス・パフォーマンストレードオフ評価を用いて評価した。バイアス緩和法の有効性は,タスク,モデル,公正度,機械学習のパフォーマンス指標に依存するが,すべてのシナリオにおいて有効な「銀の弾丸」バイアス緩和法は存在しない。
論文参考訳（メタデータ） (2022-07-07T13:14:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。