論文の概要: A Framework for Auditing Multilevel Models using Explainability Methods
- arxiv url: http://arxiv.org/abs/2207.01611v2
- Date: Fri, 15 Jul 2022 09:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 09:42:46.494449
- Title: A Framework for Auditing Multilevel Models using Explainability Methods
- Title(参考訳): 説明可能性法を用いた多段階モデル監査フレームワーク
- Authors: Debarati Bhaumik, Diptish Dey, Subhradeep Kayal
- Abstract要約: 回帰の技術的評価のための監査フレームワークを提案する。
焦点は3つの側面、モデル、差別、透明性と説明責任である。
SHAP や LIME などの一般的な説明可能性法は,これらのモデルを解釈する際には精度が低いことが示されている。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applications of multilevel models usually result in binary classification
within groups or hierarchies based on a set of input features. For transparent
and ethical applications of such models, sound audit frameworks need to be
developed. In this paper, an audit framework for technical assessment of
regression MLMs is proposed. The focus is on three aspects, model,
discrimination, and transparency and explainability. These aspects are
subsequently divided into sub aspects. Contributors, such as inter MLM group
fairness, feature contribution order, and aggregated feature contribution, are
identified for each of these sub aspects. To measure the performance of the
contributors, the framework proposes a shortlist of KPIs. A traffic light risk
assessment method is furthermore coupled to these KPIs. For assessing
transparency and explainability, different explainability methods (SHAP and
LIME) are used, which are compared with a model intrinsic method using
quantitative methods and machine learning modelling. Using an open source
dataset, a model is trained and tested and the KPIs are computed. It is
demonstrated that popular explainability methods, such as SHAP and LIME,
underperform in accuracy when interpreting these models. They fail to predict
the order of feature importance, the magnitudes, and occasionally even the
nature of the feature contribution. For other contributors, such as group
fairness and their associated KPIs, similar analysis and calculations have been
performed with the aim of adding profundity to the proposed audit framework.
The framework is expected to assist regulatory bodies in performing conformity
assessments of AI systems using multilevel binomial classification models at
businesses. It will also benefit businesses deploying MLMs to be future proof
and aligned with the European Commission proposed Regulation on Artificial
Intelligence.
- Abstract(参考訳): マルチレベルモデルの適用は通常、一連の入力特徴に基づいたグループまたは階層内のバイナリ分類をもたらす。
このようなモデルの透明で倫理的な応用には、健全な監査フレームワークを開発する必要がある。
本稿では,回帰MDMの技術的評価のための監査フレームワークを提案する。
焦点は3つの側面、モデル、差別、透明性と説明責任である。
これらの側面はその後、サブアスペクトに分割される。
これらのサブ側面ごとに、MLM間グループフェアネス、特徴コントリビューション順序、集約された特徴コントリビューションなどのコントリビュータが識別される。
コントリビュータのパフォーマンスを測定するため、フレームワークはKPIのショートリストを提案する。
これらのKPIには、さらに交通光リスク評価手法が組み合わされている。
透明性と説明可能性を評価するために、定量的手法と機械学習モデルを用いたモデル内在法と比較し、異なる説明可能性法(shapとlime)を用いる。
オープンソースのデータセットを使用して、モデルをトレーニングし、テストし、KPIを計算する。
SHAP や LIME などの一般的な説明可能性法は,これらのモデルを解釈する際の精度が低かった。
彼らは機能の重要性の順序、大きさ、時には機能貢献の性質を予測できません。
グループフェアネスや関連するKPIといった他のコントリビュータに対しては、同様の分析と計算が提案された監査フレームワークに資金提供を追加する目的で実施されている。
この枠組みは、企業における多レベル二項分類モデルを用いて、規制機関がaiシステムの適合性評価を行うのを助けることが期待されている。
また、将来の証明としてMLMを配備する企業や、欧州委員会が提案する人工知能に関する規則に適合する企業にも利益をもたらす。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Incorporating Domain Knowledge in Deep Neural Networks for Discrete
Choice Models [0.5801044612920815]
本稿では,DCMにおけるデータ駆動型アプローチの可能性を拡張するフレームワークを提案する。
これには、必要な関係を表す擬似データサンプルと、その実現度を測定する損失関数が含まれる。
ケーススタディは、このフレームワークの個別選択分析の可能性を示している。
論文 参考訳(メタデータ) (2023-05-30T12:53:55Z) - An Audit Framework for Technical Assessment of Binary Classifiers [0.0]
ロジスティック回帰 (MLogRM) とランダムフォレストモデル (RFM) を用いたマルチレベルモデルは、二項分類のために産業にますます導入されている。
欧州委員会が提案する人工知能法(AIA)は、特定の条件下では、そのようなモデルの適用は公正で透明性があり倫理的である必要がある。
本稿では, モデル, 識別, 透明性, 説明可能性に関する側面に着目し, RFM と MLogRM の技術的評価のための監査フレームワークを提案し, 実証する。
論文 参考訳(メタデータ) (2022-11-17T12:48:11Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - PermuteAttack: Counterfactual Explanation of Machine Learning Credit
Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。
提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文 参考訳(メタデータ) (2020-08-24T00:05:13Z) - Fairness by Explicability and Adversarial SHAP Learning [0.0]
本稿では,外部監査役の役割とモデル説明可能性を強調するフェアネスの新たな定義を提案する。
逆代理モデルのSHAP値から構築した正規化を用いてモデルバイアスを緩和するフレームワークを開発する。
合成データセット、UCIアダルト(国勢調査)データセット、実世界の信用評価データセットである。
論文 参考訳(メタデータ) (2020-03-11T14:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。