論文の概要: Bias Detection via Maximum Subgroup Discrepancy
- arxiv url: http://arxiv.org/abs/2502.02221v1
- Date: Tue, 04 Feb 2025 11:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:58.154697
- Title: Bias Detection via Maximum Subgroup Discrepancy
- Title(参考訳): 最大部分群差によるバイアス検出
- Authors: Jiří Němeček, Mark Kozdoba, Illia Kryvoviaz, Tomáš Pevný, Jakub Mareček,
- Abstract要約: 距離の概念である最大部分群離散性(MSD)を提案する。
この計量において、2つの分布が概して、すべての特徴部分群に対して相違が低ければ近い。
混合整数最適化(MIO)に基づく距離評価のための実用的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.236957801565796
- License:
- Abstract: Bias evaluation is fundamental to trustworthy AI, both in terms of checking data quality and in terms of checking the outputs of AI systems. In testing data quality, for example, one may study a distance of a given dataset, viewed as a distribution, to a given ground-truth reference dataset. However, classical metrics, such as the Total Variation and the Wasserstein distances, are known to have high sample complexities and, therefore, may fail to provide meaningful distinction in many practical scenarios. In this paper, we propose a new notion of distance, the Maximum Subgroup Discrepancy (MSD). In this metric, two distributions are close if, roughly, discrepancies are low for all feature subgroups. While the number of subgroups may be exponential, we show that the sample complexity is linear in the number of features, thus making it feasible for practical applications. Moreover, we provide a practical algorithm for the evaluation of the distance, based on Mixed-integer optimization (MIO). We also note that the proposed distance is easily interpretable, thus providing clearer paths to fixing the biases once they have been identified. It also provides guarantees for all subgroups. Finally, we empirically evaluate, compare with other metrics, and demonstrate the above properties of MSD on real-world datasets.
- Abstract(参考訳): バイアス評価は、データ品質のチェックとAIシステムのアウトプットの両面で、信頼できるAIの基本である。
例えば、データ品質をテストする場合、例えば、分布と見なされる与えられたデータセットから、与えられた基底真実参照データセットまでの距離を研究することができる。
しかしながら、トータル変分法やワッサーシュタイン距離のような古典的な測度は、高いサンプル複素量を持つことが知られており、多くの実践的なシナリオにおいて有意義な区別を与えることができない。
本稿では,距離の概念である最大部分群離散性(MSD)を提案する。
この計量において、2つの分布が概して、すべての特徴部分群に対して相違が低ければ近い。
部分群の数は指数関数的であるかもしれないが、サンプルの複雑さは特徴数において線型であることを示し、実用的な応用が可能となる。
さらに,Mixed-Integer Optimization (MIO) に基づく距離評価のための実用的なアルゴリズムを提案する。
また、提案した距離は容易に解釈できるので、特定されるとバイアスを修正するための明確な経路が提供されることに留意する。
また、すべてのサブグループに対して保証を提供する。
最後に、実世界のデータセット上でのMSDの特性を実証的に評価し、他の指標と比較する。
関連論文リスト
- Improving Distribution Alignment with Diversity-based Sampling [0.0]
ドメインシフトは機械学習においてユビキタスであり、実際のデータにデプロイすると、モデルのパフォーマンスが大幅に低下する可能性がある。
本稿では,各サンプル小バッチの多様性を誘導することにより,これらの推定値を改善することを提案する。
同時にデータのバランスを保ち、勾配のばらつきを低減し、それによってモデルの一般化能力を高める。
論文 参考訳(メタデータ) (2024-10-05T17:26:03Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Anomaly Detection Under Uncertainty Using Distributionally Robust
Optimization Approach [0.9217021281095907]
異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。
1クラスのサポートベクトルマシン(SVM)メソッドは、通常のデータポイントと異常を区別するための決定境界を見つけることを目的としている。
誤分類の確率が低い分布的に頑健な確率制約モデルを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:13:22Z) - Optimal Multitask Linear Regression and Contextual Bandits under Sparse Heterogeneity [41.772562538698395]
マルチタスク学習手法は、データセット間の共通性を活用することにより効率を向上する。
マルチタスク線形回帰と文脈帯域幅をスパースヘテロジニティ下で検討した。
提案手法は,多くの下界を提供することにより,最小限の最適化が可能であることを示す。
論文 参考訳(メタデータ) (2023-06-09T22:48:13Z) - Approximating a RUM from Distributions on k-Slates [88.32814292632675]
与えられた分布を平均で最もよく近似するRUMを求める一般化時間アルゴリズムを求める。
我々の理論的結果は、実世界のデータセットに効果的でスケール可能なものを得るという、実践的な結果も得られます。
論文 参考訳(メタデータ) (2023-05-22T17:43:34Z) - Fixed and adaptive landmark sets for finite pseudometric spaces [0.9137554315375919]
ランク付けされた距離に基づく「ラストファースト」とは、一様濃度の集合からなる表紙を指す。
ベンチマークテストを行い、その性能を機能検出やクラス予測タスクの最大値と比較する。
最後に, 予測タスクにおいて比較性能を達成し, ホモロジー検出タスクにおいて最大性能を上回った。
論文 参考訳(メタデータ) (2022-12-19T19:53:33Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Causal Order Identification to Address Confounding: Binary Variables [4.56877715768796]
本稿では,線形非ガウス非巡回モデル(LiNGAM)の拡張について考察する。
LiNGAMは、変数が雑音を含む一連の線形方程式で表されるとき、データセットから変数間の因果順序を決定する。
論文 参考訳(メタデータ) (2021-08-10T22:09:43Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。