論文の概要: Sample Complexity of Bias Detection with Subsampled Point-to-Subspace Distances
- arxiv url: http://arxiv.org/abs/2502.02623v1
- Date: Tue, 04 Feb 2025 14:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:05.855754
- Title: Sample Complexity of Bias Detection with Subsampled Point-to-Subspace Distances
- Title(参考訳): サブサンプル付きポイント・ツー・サブスペース距離を用いたバイアス検出の高精度化
- Authors: German Martinez Matilla, Jakub Marecek,
- Abstract要約: バイアス推定のサンプル複雑性は、任意のバイアス検出手法のランタイム上の低い境界である。
我々は、測度空間上の点-部分空間問題としてバイアス検出を再構成し、超ノルムの場合、効率的にサブサンプリングできることを示す。
- 参考スコア(独自算出の注目度): 2.7624021966289596
- License:
- Abstract: Sample complexity of bias estimation is a lower bound on the runtime of any bias detection method. Many regulatory frameworks require the bias to be tested for all subgroups, whose number grows exponentially with the number of protected attributes. Unless one wishes to run a bias detection with a doubly-exponential run-time, one should like to have polynomial complexity of bias detection for a single subgroup. At the same time, the reference data may be based on surveys, and thus come with non-trivial uncertainty. Here, we reformulate bias detection as a point-to-subspace problem on the space of measures and show that, for supremum norm, it can be subsampled efficiently. In particular, our probabilistically approximately correct (PAC) results are corroborated by tests on well-known instances.
- Abstract(参考訳): バイアス推定のサンプルの複雑さは、任意のバイアス検出手法のランタイム上の低い境界である。
多くの規制フレームワークは、保護属性の数とともに指数関数的に増加する全てのサブグループに対してバイアスをテストする必要がある。
二重排他的実行時間でバイアス検出を実行しようとしないかぎり、単一のサブグループに対するバイアス検出の多項式複雑性が望まれる。
同時に、基準データはサーベイに基づいており、従って非自明な不確実性を伴う。
ここでは、測度空間上の点-部分空間問題としてバイアス検出を再構成し、最大ノルムに対して、効率的にサブサンプリングできることを示す。
特に、確率論的に略正(PAC)の結果は、よく知られたインスタンスの試験によって相関する。
関連論文リスト
- Bias Detection via Maximum Subgroup Discrepancy [2.236957801565796]
距離の概念である最大部分群離散性(MSD)を提案する。
この計量において、2つの分布が概して、すべての特徴部分群に対して相違が低ければ近い。
混合整数最適化(MIO)に基づく距離評価のための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T11:01:03Z) - On Socially Fair Low-Rank Approximation and Column Subset Selection [62.44413238556872]
低ランク近似と列サブセット選択は、豊富な機械学習アプリケーションに適用される2つの基本的および関連する問題である。
驚くべきことに、一定要素の近似であっても、特定の標準複雑性仮説の下では指数時間を必要とすることが示される。
一定の数の群と一定要素の精度で、na"ive $ntextpoly(k)$ではなく2textpoly(k)$ timeで実行されるような、公平な低ランク近似のアルゴリズムを与える。
論文 参考訳(メタデータ) (2024-12-08T20:34:16Z) - Multi-Normal Prototypes Learning for Weakly Supervised Anomaly Detection [9.4765288592895]
異常検出は様々な領域において重要な課題である。
既存の手法のほとんどは、単一の中央プロトタイプを中心とした通常のサンプルデータクラスタを前提としています。
ラベル付き異常を効率的に扱える新しい異常検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T18:27:58Z) - Generalization error of min-norm interpolators in transfer learning [2.7309692684728617]
最小ノルム補間器は、現代の機械学習アルゴリズムの暗黙の正規化限界として自然に現れる。
多くのアプリケーションでは、トレーニング中に限られた量のテストデータが利用できるが、この設定におけるmin-normの特性は十分に理解されていない。
我々はこれらの特徴を達成するために、新しい異方性局所法を確立した。
論文 参考訳(メタデータ) (2024-06-20T02:23:28Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Partition-and-Debias: Agnostic Biases Mitigation via A Mixture of
Biases-Specific Experts [24.055919128977195]
本稿では,偏差空間を複数の部分空間に暗黙的に分割するために,偏差特異的な専門家の混合を用いた分割・偏差法(PnD)を提案する。
公開および構築されたベンチマークの実験は、PnDの有効性を実証した。
論文 参考訳(メタデータ) (2023-08-19T13:11:40Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Correcting Underrepresentation and Intersectional Bias for Classification [49.1574468325115]
我々は、表現不足のバイアスによって破損したデータから学習する問題を考察する。
偏りのないデータの少ない場合、グループワイドのドロップアウト率を効率的に推定できることが示される。
本アルゴリズムは,有限VC次元のモデルクラスに対して,効率的な学習を可能にする。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。