Fugu-MT 論文翻訳(概要): An Audit Framework for Technical Assessment of Binary Classifiers

論文の概要: An Audit Framework for Technical Assessment of Binary Classifiers

arxiv url: http://arxiv.org/abs/2211.09500v1
Date: Thu, 17 Nov 2022 12:48:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-19 12:29:24.338925
Title: An Audit Framework for Technical Assessment of Binary Classifiers
Title（参考訳）: バイナリ分類器の技術評価のための監査枠組み
Authors: Debarati Bhaumik and Diptish Dey
Abstract要約: ロジスティック回帰 (MLogRM) とランダムフォレストモデル (RFM) を用いたマルチレベルモデルは、二項分類のために産業にますます導入されている。欧州委員会が提案する人工知能法(AIA)は、特定の条件下では、そのようなモデルの適用は公正で透明性があり倫理的である必要がある。本稿では, モデル, 識別, 透明性, 説明可能性に関する側面に着目し, RFM と MLogRM の技術的評価のための監査フレームワークを提案し, 実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multilevel models using logistic regression (MLogRM) and random forest models (RFM) are increasingly deployed in industry for the purpose of binary classification. The European Commission's proposed Artificial Intelligence Act (AIA) necessitates, under certain conditions, that application of such models is fair, transparent, and ethical, which consequently implies technical assessment of these models. This paper proposes and demonstrates an audit framework for technical assessment of RFMs and MLogRMs by focussing on model-, discrimination-, and transparency & explainability-related aspects. To measure these aspects 20 KPIs are proposed, which are paired to a traffic light risk assessment method. An open-source dataset is used to train a RFM and a MLogRM model and these KPIs are computed and compared with the traffic lights. The performance of popular explainability methods such as kernel- and tree-SHAP are assessed. The framework is expected to assist regulatory bodies in performing conformity assessments of binary classifiers and also benefits providers and users deploying such AI-systems to comply with the AIA.
Abstract（参考訳）: ロジスティック回帰 (MLogRM) とランダムフォレストモデル (RFM) を用いたマルチレベルモデルは、二項分類のために産業にますます導入されている。欧州委員会が提案する人工知能法(AIA)は、特定の条件下では、そのようなモデルの応用は公正で透明性があり倫理的であり、結果としてこれらのモデルの技術的評価が必要とされる。本稿では, モデル, 識別, 透明性, 説明可能性に関する側面に着目し, RFM と MLogRM の技術的評価のための監査フレームワークを提案し, 実証する。これらの側面を測るために,交通光リスク評価法と組み合わせた20KPIを提案する。 RFMとMLogRMモデルをトレーニングするためにオープンソースのデータセットを使用し、これらのKPIを計算し、トラフィックライトと比較する。カーネルやツリーSHAPなどの一般的な説明可能性手法の性能を評価する。このフレームワークは、規制機関がバイナリ分類器の適合性評価を行うのを支援するとともに、AIAに準拠するためにそのようなAIシステムを展開するプロバイダやユーザの利益も期待されている。

関連論文リスト

Assessing FAIRness of the Digital Shadow Reference Model [0.0]
本稿では,デジタルシャドウ参照モデルのFAIRnessを評価する。モデルのメタデータスキーマは、リッチな記述と認証技術をサポートしている。グローバルなユニークな識別子の必要性や、異なるWeb標準のサポートなど、改善すべき領域を強調している。
論文参考訳（メタデータ） (2025-04-22T08:58:48Z)
Matrix Factorization for Inferring Associations and Missing Links [5.700773330654261]
リンク予測の欠如は、ネットワーク内の見えないが潜在的に存在するコネクションを特定する。増殖検出においては、国家および非国家アクターによる核兵器獲得の試みを特定し、特徴付ける努力を支援する。本稿では,新しい重み付き (WNMFk), Boolean (BNMFk), およびRecommender (RNMFk) 行列因数分解法と,ロジスティック因数分解を組み込んだアンサンブル変種をリンク予測のために導入する。
論文参考訳（メタデータ） (2025-03-06T18:22:46Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
Case-based Explainability for Random Forest: Prototypes, Critics, Counter-factuals and Semi-factuals [1.0485739694839669]
説明可能なケースベース推論(XCBR)は、実例を参照してモデルの出力を解明する実践的なアプローチである。 XCBRは、最近までツリーベースモデルなど、多くのアルゴリズムであまり研究されていない。
論文参考訳（メタデータ） (2024-08-13T07:08:54Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文参考訳（メタデータ） (2024-07-09T09:36:37Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
How fair are we? From conceptualization to automated assessment of fairness definitions [6.741000368514124]
MODNESSは、ソフトウェアシステムにおけるユーザ定義公正の概念に対するモデル駆動のアプローチである。これらのカスタム定義に基づいて公平なアセスメントを実装するためにソースコードを生成する。その結果、現在のアプローチのほとんどは、ユーザ定義の公平性の概念をサポートしていないことが明らかとなった。
論文参考訳（メタデータ） (2024-04-15T16:46:17Z)
Incorporating Domain Knowledge in Deep Neural Networks for Discrete Choice Models [0.5801044612920815]
本稿では,DCMにおけるデータ駆動型アプローチの可能性を拡張するフレームワークを提案する。これには、必要な関係を表す擬似データサンプルと、その実現度を測定する損失関数が含まれる。ケーススタディは、このフレームワークの個別選択分析の可能性を示している。
論文参考訳（メタデータ） (2023-05-30T12:53:55Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。まず、神経因果モデル(NCM)が十分に表現可能であることを示す。第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文参考訳（メタデータ） (2022-09-30T18:29:09Z)
A Framework for Auditing Multilevel Models using Explainability Methods [2.578242050187029]
回帰の技術的評価のための監査フレームワークを提案する。焦点は3つの側面、モデル、差別、透明性と説明責任である。 SHAP や LIME などの一般的な説明可能性法は,これらのモデルを解釈する際には精度が低いことが示されている。
論文参考訳（メタデータ） (2022-07-04T17:53:21Z)
Towards a multi-stakeholder value-based assessment framework for algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文参考訳（メタデータ） (2022-05-09T19:28:32Z)
PermuteAttack: Counterfactual Explanation of Machine Learning Credit Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文参考訳（メタデータ） (2020-08-24T00:05:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。