論文の概要: Investigating the Effects of Fairness Interventions Using Pointwise Representational Similarity
- arxiv url: http://arxiv.org/abs/2305.19294v2
- Date: Thu, 22 May 2025 11:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.545854
- Title: Investigating the Effects of Fairness Interventions Using Pointwise Representational Similarity
- Title(参考訳): ポイントワイズ表現の類似性を用いたフェアネス介入の効果の検討
- Authors: Camila Kolling, Till Speicher, Vedant Nanda, Mariya Toneva, Krishna P. Gummadi,
- Abstract要約: 本稿では,PNKA(Pointwise Normalized Kernel Alignment)を提案する。
PNKAは、偏りが個人の中間表現にどのように影響するかを測定することで、これまで未知の洞察を明らかにしている。
PNKAを用いて表現を評価することにより、これらの表現に基づいて訓練されたMLモデルの挙動を確実に予測できることを示す。
- 参考スコア(独自算出の注目度): 12.879768345296718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) algorithms can often exhibit discriminatory behavior, negatively affecting certain populations across protected groups. To address this, numerous debiasing methods, and consequently evaluation measures, have been proposed. Current evaluation measures for debiasing methods suffer from two main limitations: (1) they primarily provide a global estimate of unfairness, failing to provide a more fine-grained analysis, and (2) they predominantly analyze the model output on a specific task, failing to generalize the findings to other tasks. In this work, we introduce Pointwise Normalized Kernel Alignment (PNKA), a pointwise representational similarity measure that addresses these limitations by measuring how debiasing measures affect the intermediate representations of individuals. On tabular data, the use of PNKA reveals previously unknown insights: while group fairness predominantly influences a small subset of the population, maintaining high representational similarity for the majority, individual fairness constraints uniformly impact representations across the entire population, altering nearly every data point. We show that by evaluating representations using PNKA, we can reliably predict the behavior of ML models trained on these representations. Moreover, applying PNKA to language embeddings shows that existing debiasing methods may not perform as intended, failing to remove biases from stereotypical words and sentences. Our findings suggest that current evaluation measures for debiasing methods are insufficient, highlighting the need for a deeper understanding of the effects of debiasing methods, and show how pointwise representational similarity metrics can help with fairness audits.
- Abstract(参考訳): 機械学習(ML)アルゴリズムは、しばしば識別行動を示し、保護された集団の特定の集団に悪影響を及ぼす。
この問題に対処するため, 多数の脱バイアス法, その結果, 評価方法が提案されている。
1) 主に不公平さのグローバルな見積を行い, よりきめ細かな分析を怠り, 2) 特定のタスクにおけるモデル出力を主に分析し, 結果を他のタスクに一般化することができない。
本研究では,これらの制約に対処するポイントワイド正規化カーネルアライメント(PNKA, Pointwise Normalized Kernel Alignment)を導入する。
グループフェアネスは人口の小さなサブセットに大きく影響し、多数派に対して高い表現的類似性を維持する一方で、個人フェアネスの制約は人口全体の表現に一様に影響を与え、ほぼすべてのデータポイントを変化させる。
PNKAを用いて表現を評価することにより、これらの表現に基づいて訓練されたMLモデルの挙動を確実に予測できることを示す。
さらに、PNKAを言語埋め込みに適用すると、既存のデバイアス法は意図した通りには機能せず、定型的な単語や文からのバイアスを除去できないことが示される。
以上の結果から, 偏り評価手法の評価は不十分であることが示唆され, 偏り評価の効果を深く理解する必要性が指摘され, 点表現類似度指標が公平性検査にどう役立つかが示唆された。
関連論文リスト
- EMO-Debias: Benchmarking Gender Debiasing Techniques in Multi-Label Speech Emotion Recognition [49.27067541740956]
EMO-Debiasは、マルチラベルSERに適用された13のデバイアス手法の大規模比較である。
本研究は, 事前処理, 正規化, 逆学習, バイアス学習者, 分散的ロバストな最適化といった手法を含む。
本分析は公平性と正確性の間のトレードオフを定量化し,どのアプローチが一貫して性差を減少させるのかを同定する。
論文 参考訳(メタデータ) (2025-06-05T05:48:31Z) - Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs [25.62533031580287]
大規模言語モデル(LLM)のバイアスは、その信頼性と公平性を著しく損なう。
モデルベクトル空間の構造に基づくテストセットのないバイアス分析フレームワークであるBiasLensを提案する。
論文 参考訳(メタデータ) (2025-05-21T13:50:23Z) - ALVIN: Active Learning Via INterpolation [44.410677121415695]
アクティブラーニングVia Interpolation (ALVIN) は、表現不足群と表現不足群の例間のクラス内一般化を行う。
ALVINは、ショートカットの影響に反する表現空間の領域にモデルを公開する情報的な例を特定する。
感情分析、自然言語推論、パラフレーズ検出を含む6つのデータセットの実験結果は、ALVINが最先端のアクティブな学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-11T16:44:39Z) - Tracing Representation Progression: Analyzing and Enhancing Layer-Wise Similarity [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
層間の表現が正の相関を示し、層が近づくと類似度が増加する。
浅い層の有効性を向上させるためのアライメント・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - Does Machine Bring in Extra Bias in Learning? Approximating Fairness in Models Promptly [2.002741592555996]
機械学習モデルの識別レベルを評価するための既存の技術には、一般的に使用されるグループと個別の公正度尺度が含まれる。
本稿では,集合間の距離に基づく「HFM(Harmonic Fairness measure)」を提案する。
実験結果から,提案した公正度尺度 HFM が有効であり,提案した ApproxDist が有効かつ効率的であることが示唆された。
論文 参考訳(メタデータ) (2024-05-15T11:07:40Z) - Weighted Point Cloud Embedding for Multimodal Contrastive Learning Toward Optimal Similarity Metric [44.95433989446052]
提案手法の利点は,CLIPの相対的損失に対する新たな理解を通じて示される。
重み付き点雲に基づく提案した類似性は、常に最適類似性を達成することを示す。
論文 参考訳(メタデータ) (2024-04-30T03:15:04Z) - Addressing Both Statistical and Causal Gender Fairness in NLP Models [22.75594773147521]
統計的公正性は、保護されたすべてのグループに対して同等の結果を規定するが、因果公正性は、モデルが保護された特性に関係なく、個人に対して同じ予測を行うことを規定する。
統計的および因果的脱バイアス法の組み合わせにより,両指標間の偏差を低減できることを実証した。
論文 参考訳(メタデータ) (2024-03-30T20:05:41Z) - Towards out-of-distribution generalization in large-scale astronomical
surveys: robust networks learn similar representations [3.653721769378018]
ニューラルネットワーク表現の類似度尺度である Centered Kernel Alignment (CKA) を用いて、表現類似度と性能の関係について検討する。
モデルが分散シフトに対して堅牢である場合、OODデータ上に層間でかなり異なる表現を生成することが分かりました。
本稿では,CKAを誘導バイアスとして取り入れることで,モデル設計,トレーニング戦略,OOD問題を緩和する上での類似性表現の可能性について論じる。
論文 参考訳(メタデータ) (2023-11-29T19:00:05Z) - Correcting Underrepresentation and Intersectional Bias for Classification [49.1574468325115]
我々は、表現不足のバイアスによって破損したデータから学習する問題を考察する。
偏りのないデータの少ない場合、グループワイドのドロップアウト率を効率的に推定できることが示される。
本アルゴリズムは,有限VC次元のモデルクラスに対して,効率的な学習を可能にする。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - When mitigating bias is unfair: multiplicity and arbitrariness in algorithmic group fairness [8.367620276482056]
本稿では,5次元によるバイアス緩和を評価するFRAME(FaiRness Arbitrariness and Multiplicity Evaluation)フレームワークを紹介する。
FRAMEをキーデータセット全体にわたる様々なバイアス緩和アプローチに適用することにより、デバイアス手法の挙動に顕著な違いを示すことができる。
これらの知見は、現在の公平性基準の限界と、偏見過程における固有の仲裁性を強調している。
論文 参考訳(メタデータ) (2023-02-14T16:53:52Z) - Beyond Instance Discrimination: Relation-aware Contrastive
Self-supervised Learning [75.46664770669949]
本稿では,関係認識型コントラスト型自己教師型学習(ReCo)をインスタンス関係に統合するために提案する。
当社のReCoは、常に顕著なパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2022-11-02T03:25:28Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Not All Instances Contribute Equally: Instance-adaptive Class
Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。
本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:00:18Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Information-Theoretic Bias Reduction via Causal View of Spurious
Correlation [71.9123886505321]
本稿では,スプリアス相関の因果的解釈による情報理論バイアス測定手法を提案する。
本稿では,バイアス正規化損失を含むアルゴリズムバイアスに対する新しいデバイアスフレームワークを提案する。
提案したバイアス測定とデバイアス法は、多様な現実シナリオで検証される。
論文 参考訳(メタデータ) (2022-01-10T01:19:31Z) - Information-Theoretic Bias Assessment Of Learned Representations Of
Pretrained Face Recognition [18.07966649678408]
保護された人口統計属性に対するバイアスの度合いを特定するために,情報理論,独立バイアス評価指標を提案する。
我々の測定基準は、分類精度に依存する他の方法と異なり、浅いネットワークを用いて予測される保護属性の予測ラベルと地上の真実の差を調べる。
論文 参考訳(メタデータ) (2021-11-08T17:41:17Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Measuring Fairness Under Unawareness of Sensitive Attributes: A
Quantification-Based Approach [131.20444904674494]
センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。
定量化手法は, フェアネスと無意識の問題に対処するのに特に適していることを示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:46Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Instance Similarity Learning for Unsupervised Feature Representation [83.31011038813459]
教師なし特徴表現のための例類似性学習(ISL)手法を提案する。
我々はGAN(Generative Adversarial Networks)を用いて、基礎となる特徴多様体をマイニングする。
画像分類実験は, 最先端手法と比較して, 提案手法の優位性を示した。
論文 参考訳(メタデータ) (2021-08-05T16:42:06Z) - Toward Scalable and Unified Example-based Explanation and Outlier
Detection [128.23117182137418]
我々は,試行錯誤の予測に例ベースの説明を与えることのできる,プロトタイプベースの学生ネットワークのより広範な採用を論じる。
類似カーネル以外のプロトタイプベースのネットワークは,分類精度を損なうことなく,有意義な説明と有望な外乱検出結果が得られることを示す。
論文 参考訳(メタデータ) (2020-11-11T05:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。