論文の概要: An Audit Framework for Technical Assessment of Binary Classifiers
- arxiv url: http://arxiv.org/abs/2211.09500v1
- Date: Thu, 17 Nov 2022 12:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 12:29:24.338925
- Title: An Audit Framework for Technical Assessment of Binary Classifiers
- Title(参考訳): バイナリ分類器の技術評価のための監査枠組み
- Authors: Debarati Bhaumik and Diptish Dey
- Abstract要約: ロジスティック回帰 (MLogRM) とランダムフォレストモデル (RFM) を用いたマルチレベルモデルは、二項分類のために産業にますます導入されている。
欧州委員会が提案する人工知能法(AIA)は、特定の条件下では、そのようなモデルの適用は公正で透明性があり倫理的である必要がある。
本稿では, モデル, 識別, 透明性, 説明可能性に関する側面に着目し, RFM と MLogRM の技術的評価のための監査フレームワークを提案し, 実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multilevel models using logistic regression (MLogRM) and random forest models
(RFM) are increasingly deployed in industry for the purpose of binary
classification. The European Commission's proposed Artificial Intelligence Act
(AIA) necessitates, under certain conditions, that application of such models
is fair, transparent, and ethical, which consequently implies technical
assessment of these models. This paper proposes and demonstrates an audit
framework for technical assessment of RFMs and MLogRMs by focussing on model-,
discrimination-, and transparency & explainability-related aspects. To measure
these aspects 20 KPIs are proposed, which are paired to a traffic light risk
assessment method. An open-source dataset is used to train a RFM and a MLogRM
model and these KPIs are computed and compared with the traffic lights. The
performance of popular explainability methods such as kernel- and tree-SHAP are
assessed. The framework is expected to assist regulatory bodies in performing
conformity assessments of binary classifiers and also benefits providers and
users deploying such AI-systems to comply with the AIA.
- Abstract(参考訳): ロジスティック回帰 (MLogRM) とランダムフォレストモデル (RFM) を用いたマルチレベルモデルは、二項分類のために産業にますます導入されている。
欧州委員会が提案する人工知能法(AIA)は、特定の条件下では、そのようなモデルの応用は公正で透明性があり倫理的であり、結果としてこれらのモデルの技術的評価が必要とされる。
本稿では, モデル, 識別, 透明性, 説明可能性に関する側面に着目し, RFM と MLogRM の技術的評価のための監査フレームワークを提案し, 実証する。
これらの側面を測るために,交通光リスク評価法と組み合わせた20KPIを提案する。
RFMとMLogRMモデルをトレーニングするためにオープンソースのデータセットを使用し、これらのKPIを計算し、トラフィックライトと比較する。
カーネルやツリーSHAPなどの一般的な説明可能性手法の性能を評価する。
このフレームワークは、規制機関がバイナリ分類器の適合性評価を行うのを支援するとともに、AIAに準拠するためにそのようなAIシステムを展開するプロバイダやユーザの利益も期待されている。
関連論文リスト
- Case-based Explainability for Random Forest: Prototypes, Critics, Counter-factuals and Semi-factuals [1.0485739694839669]
説明可能なケースベース推論(XCBR)は、実例を参照してモデルの出力を解明する実践的なアプローチである。
XCBRは、最近までツリーベースモデルなど、多くのアルゴリズムであまり研究されていない。
論文 参考訳(メタデータ) (2024-08-13T07:08:54Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - How fair are we? From conceptualization to automated assessment of fairness definitions [6.741000368514124]
MODNESSは、ソフトウェアシステムにおけるユーザ定義公正の概念に対するモデル駆動のアプローチである。
これらのカスタム定義に基づいて公平なアセスメントを実装するためにソースコードを生成する。
その結果、現在のアプローチのほとんどは、ユーザ定義の公平性の概念をサポートしていないことが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T16:46:17Z) - Incorporating Domain Knowledge in Deep Neural Networks for Discrete
Choice Models [0.5801044612920815]
本稿では,DCMにおけるデータ駆動型アプローチの可能性を拡張するフレームワークを提案する。
これには、必要な関係を表す擬似データサンプルと、その実現度を測定する損失関数が含まれる。
ケーススタディは、このフレームワークの個別選択分析の可能性を示している。
論文 参考訳(メタデータ) (2023-05-30T12:53:55Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - A Framework for Auditing Multilevel Models using Explainability Methods [2.578242050187029]
回帰の技術的評価のための監査フレームワークを提案する。
焦点は3つの側面、モデル、差別、透明性と説明責任である。
SHAP や LIME などの一般的な説明可能性法は,これらのモデルを解釈する際には精度が低いことが示されている。
論文 参考訳(メタデータ) (2022-07-04T17:53:21Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - PermuteAttack: Counterfactual Explanation of Machine Learning Credit
Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。
提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文 参考訳(メタデータ) (2020-08-24T00:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。