論文の概要: Hacking a surrogate model approach to XAI
- arxiv url: http://arxiv.org/abs/2406.16626v1
- Date: Mon, 24 Jun 2024 13:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 14:44:42.804015
- Title: Hacking a surrogate model approach to XAI
- Title(参考訳): XAIへの代理モデルアプローチをハックする
- Authors: Alexander Wilhelm, Katharina A. Zweig,
- Abstract要約: 識別されたサブグループがブラックボックスADMシステムから肯定的な決定を下さない場合でも、対応するグループメンバーシップの問題は、必要に応じて低いレベルまで押し下げることができることを示す。
我々のアプローチは、他の代理モデルに容易に一般化できる。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the number of new applications for highly complex AI systems has risen significantly. Algorithmic decision-making systems (ADMs) are one of such applications, where an AI system replaces the decision-making process of a human expert. As one approach to ensure fairness and transparency of such systems, explainable AI (XAI) has become more important. One variant to achieve explainability are surrogate models, i.e., the idea to train a new simpler machine learning model based on the input-output-relationship of a black box model. The simpler machine learning model could, for example, be a decision tree, which is thought to be intuitively understandable by humans. However, there is not much insight into how well the surrogate model approximates the black box. Our main assumption is that a good surrogate model approach should be able to bring such a discriminating behavior to the attention of humans; prior to our research we assumed that a surrogate decision tree would identify such a pattern on one of its first levels. However, in this article we show that even if the discriminated subgroup - while otherwise being the same in all categories - does not get a single positive decision from the black box ADM system, the corresponding question of group membership can be pushed down onto a level as low as wanted by the operator of the system. We then generalize this finding to pinpoint the exact level of the tree on which the discriminating question is asked and show that in a more realistic scenario, where discrimination only occurs to some fraction of the disadvantaged group, it is even more feasible to hide such discrimination. Our approach can be generalized easily to other surrogate models.
- Abstract(参考訳): 近年、高度に複雑なAIシステムのための新しいアプリケーションの数が大幅に増えている。
アルゴリズムによる意思決定システム(ADM)は、AIシステムが人間の意思決定プロセスを置き換えるアプリケーションのひとつだ。
このようなシステムの公平性と透明性を確保するための1つのアプローチとして、説明可能なAI(XAI)がより重要になっている。
説明可能性を達成するための1つのバリエーションは、サロゲートモデル、すなわちブラックボックスモデルの入力-出力-リレーショナルに基づいて、より単純な機械学習モデルをトレーニングするアイデアである。
より単純な機械学習モデルは、例えば、人間によって直感的に理解可能な決定木になる可能性がある。
しかし、サロゲートモデルがブラックボックスをいかにうまく近似するかについての知見は乏しい。
我々の主要な前提は、優れた代理モデルアプローチは、人間の注意にそのような差別的な行動をもたらすべきである、ということです。
しかし、本論文では、判別された部分群が、すべてのカテゴリで同じであるにもかかわらず、ブラックボックス ADM システムから一つの肯定的な決定を下しても、対応するグループメンバーシップの問題は、システムのオペレーターが望むほど低いレベルまで押し下げることができることを示す。
次に、この発見を一般化して、識別された質問が尋ねられる木の正確なレベルを特定し、より現実的なシナリオにおいて、不利なグループの一部の部分にのみ差別が発生する場合、そのような差別を隠すことはさらに不可能であることを示す。
我々のアプローチは、他の代理モデルに容易に一般化できる。
関連論文リスト
- Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - CLIMAX: An exploration of Classifier-Based Contrastive Explanations [5.381004207943597]
我々は,ブラックボックスの分類を正当化する対照的な説明を提供する,ポストホックモデルXAI手法を提案する。
CLIMAXと呼ばれる手法は,局所的な分類法に基づく。
LIME, BayLIME, SLIMEなどのベースラインと比較して, 一貫性が向上することを示す。
論文 参考訳(メタデータ) (2023-07-02T22:52:58Z) - Less Likely Brainstorming: Using Language Models to Generate Alternative
Hypotheses [45.720065723998225]
我々は、人間が関連性があると思われるが、起こりそうにないアウトプットを生成するためにモデルに要求する新しいタスク「非インブレインストーミング」を導入する。
目標として仮説の可能性が低いトレーニングのベースラインアプローチは、人間がほぼ半分の確率または無関係であると評価するアウトプットを生成する。
そこで本研究では,新たなコントラスト学習手法を用いたテキスト生成手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T18:05:34Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Certifying Fairness of Probabilistic Circuits [33.1089249944851]
本稿では,確率論的モデル,すなわち確率論的回路の一般クラスにおいて,識別パターンを探索するアルゴリズムを提案する。
また、指数関数的に多くの識別パターンを効果的に要約できる最小パターン、最大パターン、最適パターンなどの新しいパターンのクラスも導入する。
論文 参考訳(メタデータ) (2022-12-05T18:36:45Z) - Revealing Unfair Models by Mining Interpretable Evidence [50.48264727620845]
機械学習の人気は、不公平なモデルがハイリスクなアプリケーションにデプロイされるリスクを高めている。
本稿では,解釈可能な証拠をマイニングすることで不公平なモデルを明らかにする新しい課題に取り組む。
本手法は,訓練されたモデルの不公平性を効果的に明らかにするために,極めて解釈可能な確固たる証拠を見出す。
論文 参考訳(メタデータ) (2022-07-12T20:03:08Z) - Reusing the Task-specific Classifier as a Discriminator:
Discriminator-free Adversarial Domain Adaptation [55.27563366506407]
非教師付きドメイン適応(UDA)のための識別器なし対向学習ネットワーク(DALN)を導入する。
DALNは、統一された目的によって明確なドメインアライメントとカテゴリの区別を達成する。
DALNは、さまざまなパブリックデータセット上の既存の最先端(SOTA)メソッドと比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-04-08T04:40:18Z) - Explainability for identification of vulnerable groups in machine
learning models [1.7403133838762446]
フィールドとしての機械学習の公正性は、情報処理の下で個人やグループの公正な扱いに焦点が当てられている。
これにより、マシンラーニングの下で脆弱な個人やグループを保護する方法とタイミングに関する新たな課題が提起される。
既存の公正性も既存の説明可能性も、予測モデルが脆弱性を特定しているかどうかを確認できない。
論文 参考訳(メタデータ) (2022-03-01T09:44:19Z) - Augmented Fairness: An Interpretable Model Augmenting Decision-Makers'
Fairness [10.53972370889201]
ブラックボックス意思決定者の予測バイアスを軽減するためのモデルに依存しない手法を提案する。
提案手法は,ブラックボックス決定器が偏りのある特徴空間において,フェールサロゲート(fair surrogate)として機能する,いくつかの短い決定規則で置き換える手法である。
論文 参考訳(メタデータ) (2020-11-17T03:25:44Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。