Fugu-MT 論文翻訳(概要): Fairness-Aware Data Valuation for Supervised Learning

論文の概要: Fairness-Aware Data Valuation for Supervised Learning

arxiv url: http://arxiv.org/abs/2303.16963v1
Date: Wed, 29 Mar 2023 18:51:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 15:20:10.577226
Title: Fairness-Aware Data Valuation for Supervised Learning
Title（参考訳）: 教師付き学習のための公平性を考慮したデータ評価
Authors: Jos\'e Pombal, Pedro Saleiro, M\'ario A. T. Figueiredo, Pedro Bizarro
Abstract要約: 本研究では,Fairness-Aware Data vauatiOn (FADO)を提案する。 FADOを不公平化前処理技術の基礎として活用する方法を示す。提案手法は,最大40ppの公正度を,ベースラインに比べて性能が1pp以下で向上することを示す。
参考スコア（独自算出の注目度）: 4.874780144224057
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data valuation is a ML field that studies the value of training instances towards a given predictive task. Although data bias is one of the main sources of downstream model unfairness, previous work in data valuation does not consider how training instances may influence both performance and fairness of ML models. Thus, we propose Fairness-Aware Data vauatiOn (FADO), a data valuation framework that can be used to incorporate fairness concerns into a series of ML-related tasks (e.g., data pre-processing, exploratory data analysis, active learning). We propose an entropy-based data valuation metric suited to address our two-pronged goal of maximizing both performance and fairness, which is more computationally efficient than existing metrics. We then show how FADO can be applied as the basis for unfairness mitigation pre-processing techniques. Our methods achieve promising results -- up to a 40 p.p. improvement in fairness at a less than 1 p.p. loss in performance compared to a baseline -- and promote fairness in a data-centric way, where a deeper understanding of data quality takes center stage.
Abstract（参考訳）: データバリュエーション(Data valuation)は、トレーニングインスタンスの価値を所定の予測タスクに向けて研究するML分野である。データバイアスは下流モデルの不公平性の主要な原因の1つであるが、データ評価におけるこれまでの研究は、トレーニングインスタンスがMLモデルの性能と公正性の両方にどのように影響するかを考慮していない。そこで本研究では,データ評価フレームワークであるfairness-aware data vauation(fado)を提案する。本稿では,既存の指標よりも計算効率のよい性能と公平性の両方を最大化するエントロピーに基づくデータ評価指標を提案する。次に,不公平化前処理技術の基礎としてFADOを適用する方法を示す。提案手法は,データ品質の深い理解が中心となるデータ中心の手法で公正性向上を実現する。

関連論文リスト

Targeted Learning for Data Fairness [52.59573714151884]
データ生成プロセス自体の公平性を評価することにより、公平性推論を拡張する。我々は、人口統計学的平等、平等機会、条件付き相互情報から推定する。提案手法を検証するため,いくつかのシミュレーションを行い,実データに適用する。
論文参考訳（メタデータ） (2025-02-06T18:51:28Z)
DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では,ベイズ最適化を用いたデータ選択手法を組み込むことで,フィードバックループを活用できるDUETという,グローバル・ローカルなアルゴリズムを提案する。その結果、DUETは、データドメインのプールから混合したトレーニングデータを効率よく洗練し、目に見えない評価タスクにおけるモデルの性能を最大化することができる。
論文参考訳（メタデータ） (2025-02-01T01:52:32Z)
Data Preparation for Fairness-Performance Trade-Offs: A Practitioner-Friendly Alternative? [11.172805305320592]
トレーニング前のバイアスを軽減する前処理技術は効果的だが、モデルの性能に影響を与え、統合が困難になる可能性がある。本報告では,MLライフサイクルの初期段階において,最適に選択されたフェアネス・アウェアの実践が,フェアネスとパフォーマンスの両面でいかに向上するかを実証的に評価する。 FATEを用いてフェアネスとパフォーマンスのトレードオフを分析し、FATEが選択したパイプラインと、前処理のバイアス緩和技術による結果を比較する。
論文参考訳（メタデータ） (2024-12-20T14:12:39Z)
Data Acquisition for Improving Model Fairness using Reinforcement Learning [3.3916160303055563]
我々は、下流の機械学習モデルを訓練し、その公正性を迅速に改善するためのラベル付きデータポイントの獲得に重点を置いている。データバリュエーションの考え方に基づいたデータ取得フレームワークであるDataSiftを紹介します。いくつかの実世界および合成データセット上でDataSiftを実証的に評価し、いくつかのデータポイントを取得しながら、機械学習モデルの公平性を著しく改善できることを示す。
論文参考訳（メタデータ） (2024-12-04T03:56:54Z)
Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文参考訳（メタデータ） (2024-09-24T17:20:02Z)
Debiasing Machine Unlearning with Counterfactual Examples [31.931056076782202]
我々は、未学習プロセスの背後にある因果要因を分析し、データレベルとアルゴリズムレベルでバイアスを軽減する。バイアスのあるデータセットによって、忘れるべき知識が消去される、介入に基づくアプローチを導入する。本手法は,評価指標に基づく既存の機械学習ベースラインよりも優れる。
論文参考訳（メタデータ） (2024-04-24T09:33:10Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Data vs. Model Machine Learning Fairness Testing: An Empirical Study [23.535630175567146]
モデルトレーニング前後の公平性をテストすることによって、より包括的なアプローチを評価するための第一歩を踏み出します。モデル依存度と独立公平度の関係を実証的に分析し,提案手法の有効性を評価する。以上の結果から, トレーニング前の公平性テストは, バイアスデータ収集プロセスの早期取得において, より安価かつ効果的な手段であることが示唆された。
論文参考訳（メタデータ） (2024-01-15T14:14:16Z)
LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文参考訳（メタデータ） (2023-04-28T19:05:16Z)
Striving for data-model efficiency: Identifying data externalities on group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文参考訳（メタデータ） (2022-11-11T16:48:27Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
FORML: Learning to Reweight Data for Fairness [2.105564340986074]
メタラーニング(FORML)によるフェアネス最適化リヘアリングについて紹介する。 FORMLは、トレーニングサンプル重量とニューラルネットワークのパラメータを共同最適化することで、公正性の制約と精度のバランスを取る。また,FORMLは,既存の最先端再重み付け手法に比べて,画像分類タスクで約1%,顔予測タスクで約5%向上することを示した。
論文参考訳（メタデータ） (2022-02-03T17:36:07Z)
Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文参考訳（メタデータ） (2021-04-14T14:20:22Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。