論文の概要: An Audit Framework for Technical Assessment of Binary Classifiers
- arxiv url: http://arxiv.org/abs/2211.09500v1
- Date: Thu, 17 Nov 2022 12:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 12:29:24.338925
- Title: An Audit Framework for Technical Assessment of Binary Classifiers
- Title(参考訳): バイナリ分類器の技術評価のための監査枠組み
- Authors: Debarati Bhaumik and Diptish Dey
- Abstract要約: ロジスティック回帰 (MLogRM) とランダムフォレストモデル (RFM) を用いたマルチレベルモデルは、二項分類のために産業にますます導入されている。
欧州委員会が提案する人工知能法(AIA)は、特定の条件下では、そのようなモデルの適用は公正で透明性があり倫理的である必要がある。
本稿では, モデル, 識別, 透明性, 説明可能性に関する側面に着目し, RFM と MLogRM の技術的評価のための監査フレームワークを提案し, 実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multilevel models using logistic regression (MLogRM) and random forest models
(RFM) are increasingly deployed in industry for the purpose of binary
classification. The European Commission's proposed Artificial Intelligence Act
(AIA) necessitates, under certain conditions, that application of such models
is fair, transparent, and ethical, which consequently implies technical
assessment of these models. This paper proposes and demonstrates an audit
framework for technical assessment of RFMs and MLogRMs by focussing on model-,
discrimination-, and transparency & explainability-related aspects. To measure
these aspects 20 KPIs are proposed, which are paired to a traffic light risk
assessment method. An open-source dataset is used to train a RFM and a MLogRM
model and these KPIs are computed and compared with the traffic lights. The
performance of popular explainability methods such as kernel- and tree-SHAP are
assessed. The framework is expected to assist regulatory bodies in performing
conformity assessments of binary classifiers and also benefits providers and
users deploying such AI-systems to comply with the AIA.
- Abstract(参考訳): ロジスティック回帰 (MLogRM) とランダムフォレストモデル (RFM) を用いたマルチレベルモデルは、二項分類のために産業にますます導入されている。
欧州委員会が提案する人工知能法(AIA)は、特定の条件下では、そのようなモデルの応用は公正で透明性があり倫理的であり、結果としてこれらのモデルの技術的評価が必要とされる。
本稿では, モデル, 識別, 透明性, 説明可能性に関する側面に着目し, RFM と MLogRM の技術的評価のための監査フレームワークを提案し, 実証する。
これらの側面を測るために,交通光リスク評価法と組み合わせた20KPIを提案する。
RFMとMLogRMモデルをトレーニングするためにオープンソースのデータセットを使用し、これらのKPIを計算し、トラフィックライトと比較する。
カーネルやツリーSHAPなどの一般的な説明可能性手法の性能を評価する。
このフレームワークは、規制機関がバイナリ分類器の適合性評価を行うのを支援するとともに、AIAに準拠するためにそのようなAIシステムを展開するプロバイダやユーザの利益も期待されている。
関連論文リスト
- The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Case-based Explainability for Random Forest: Prototypes, Critics, Counter-factuals and Semi-factuals [1.0485739694839669]
説明可能なケースベース推論(XCBR)は、実例を参照してモデルの出力を解明する実践的なアプローチである。
XCBRは、最近までツリーベースモデルなど、多くのアルゴリズムであまり研究されていない。
論文 参考訳(メタデータ) (2024-08-13T07:08:54Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - How fair are we? From conceptualization to automated assessment of fairness definitions [6.741000368514124]
MODNESSは、ソフトウェアシステムにおけるユーザ定義公正の概念に対するモデル駆動のアプローチである。
これらのカスタム定義に基づいて公平なアセスメントを実装するためにソースコードを生成する。
その結果、現在のアプローチのほとんどは、ユーザ定義の公平性の概念をサポートしていないことが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T16:46:17Z) - Incorporating Domain Knowledge in Deep Neural Networks for Discrete
Choice Models [0.5801044612920815]
本稿では,DCMにおけるデータ駆動型アプローチの可能性を拡張するフレームワークを提案する。
これには、必要な関係を表す擬似データサンプルと、その実現度を測定する損失関数が含まれる。
ケーススタディは、このフレームワークの個別選択分析の可能性を示している。
論文 参考訳(メタデータ) (2023-05-30T12:53:55Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - A Framework for Auditing Multilevel Models using Explainability Methods [2.578242050187029]
回帰の技術的評価のための監査フレームワークを提案する。
焦点は3つの側面、モデル、差別、透明性と説明責任である。
SHAP や LIME などの一般的な説明可能性法は,これらのモデルを解釈する際には精度が低いことが示されている。
論文 参考訳(メタデータ) (2022-07-04T17:53:21Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。