Fugu-MT 論文翻訳(概要): A Framework for Auditing Multilevel Models using Explainability Methods

論文の概要: A Framework for Auditing Multilevel Models using Explainability Methods

arxiv url: http://arxiv.org/abs/2207.01611v2
Date: Fri, 15 Jul 2022 09:38:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-19 09:42:46.494449
Title: A Framework for Auditing Multilevel Models using Explainability Methods
Title（参考訳）: 説明可能性法を用いた多段階モデル監査フレームワーク
Authors: Debarati Bhaumik, Diptish Dey, Subhradeep Kayal
Abstract要約: 回帰の技術的評価のための監査フレームワークを提案する。焦点は3つの側面、モデル、差別、透明性と説明責任である。 SHAP や LIME などの一般的な説明可能性法は,これらのモデルを解釈する際には精度が低いことが示されている。
参考スコア（独自算出の注目度）: 2.578242050187029
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Applications of multilevel models usually result in binary classification within groups or hierarchies based on a set of input features. For transparent and ethical applications of such models, sound audit frameworks need to be developed. In this paper, an audit framework for technical assessment of regression MLMs is proposed. The focus is on three aspects, model, discrimination, and transparency and explainability. These aspects are subsequently divided into sub aspects. Contributors, such as inter MLM group fairness, feature contribution order, and aggregated feature contribution, are identified for each of these sub aspects. To measure the performance of the contributors, the framework proposes a shortlist of KPIs. A traffic light risk assessment method is furthermore coupled to these KPIs. For assessing transparency and explainability, different explainability methods (SHAP and LIME) are used, which are compared with a model intrinsic method using quantitative methods and machine learning modelling. Using an open source dataset, a model is trained and tested and the KPIs are computed. It is demonstrated that popular explainability methods, such as SHAP and LIME, underperform in accuracy when interpreting these models. They fail to predict the order of feature importance, the magnitudes, and occasionally even the nature of the feature contribution. For other contributors, such as group fairness and their associated KPIs, similar analysis and calculations have been performed with the aim of adding profundity to the proposed audit framework. The framework is expected to assist regulatory bodies in performing conformity assessments of AI systems using multilevel binomial classification models at businesses. It will also benefit businesses deploying MLMs to be future proof and aligned with the European Commission proposed Regulation on Artificial Intelligence.
Abstract（参考訳）: マルチレベルモデルの適用は通常、一連の入力特徴に基づいたグループまたは階層内のバイナリ分類をもたらす。このようなモデルの透明で倫理的な応用には、健全な監査フレームワークを開発する必要がある。本稿では,回帰MDMの技術的評価のための監査フレームワークを提案する。焦点は3つの側面、モデル、差別、透明性と説明責任である。これらの側面はその後、サブアスペクトに分割される。これらのサブ側面ごとに、MLM間グループフェアネス、特徴コントリビューション順序、集約された特徴コントリビューションなどのコントリビュータが識別される。コントリビュータのパフォーマンスを測定するため、フレームワークはKPIのショートリストを提案する。これらのKPIには、さらに交通光リスク評価手法が組み合わされている。透明性と説明可能性を評価するために、定量的手法と機械学習モデルを用いたモデル内在法と比較し、異なる説明可能性法(shapとlime)を用いる。オープンソースのデータセットを使用して、モデルをトレーニングし、テストし、KPIを計算する。 SHAP や LIME などの一般的な説明可能性法は,これらのモデルを解釈する際の精度が低かった。彼らは機能の重要性の順序、大きさ、時には機能貢献の性質を予測できません。グループフェアネスや関連するKPIといった他のコントリビュータに対しては、同様の分析と計算が提案された監査フレームワークに資金提供を追加する目的で実施されている。この枠組みは、企業における多レベル二項分類モデルを用いて、規制機関がaiシステムの適合性評価を行うのを助けることが期待されている。また、将来の証明としてMLMを配備する企業や、欧州委員会が提案する人工知能に関する規則に適合する企業にも利益をもたらす。

関連論文リスト

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models [0.0]
我々は、大規模言語モデル(LLM)におけるバイアス、倫理、公平性、現実性を評価するための新しいフレームワークBEATSを紹介する。 LLMのバイアスベンチマークを行い、29の異なるメトリクスのパフォーマンスを計測する。これらの指標は、人口統計学、認知学、社会的偏見、倫理的推論、グループフェアネス、事実に関する誤情報リスクなど、幅広い特徴に及びます。
論文参考訳（メタデータ） (2025-03-31T16:56:52Z)
Decoding AI Judgment: How LLMs Assess News Credibility and Bias [33.7054351451505]
大規模言語モデル(LLM)は、評価プロセスを含む言語にますます組み込まれています。これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。我々は、専門家評価(NewsGuardとMedia Bias/Fact Check(MBFC))と、制御された実験を通して収集された人間の判断に対する6つのLCMをベンチマークする。
論文参考訳（メタデータ） (2025-02-06T18:52:10Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文参考訳（メタデータ） (2024-07-09T09:36:37Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。本稿では, 対物近似(CF)の2つの手法を提案する。
論文参考訳（メタデータ） (2023-10-01T07:31:04Z)
Incorporating Domain Knowledge in Deep Neural Networks for Discrete Choice Models [0.5801044612920815]
本稿では,DCMにおけるデータ駆動型アプローチの可能性を拡張するフレームワークを提案する。これには、必要な関係を表す擬似データサンプルと、その実現度を測定する損失関数が含まれる。ケーススタディは、このフレームワークの個別選択分析の可能性を示している。
論文参考訳（メタデータ） (2023-05-30T12:53:55Z)
An Audit Framework for Technical Assessment of Binary Classifiers [0.0]
ロジスティック回帰 (MLogRM) とランダムフォレストモデル (RFM) を用いたマルチレベルモデルは、二項分類のために産業にますます導入されている。欧州委員会が提案する人工知能法(AIA)は、特定の条件下では、そのようなモデルの適用は公正で透明性があり倫理的である必要がある。本稿では, モデル, 識別, 透明性, 説明可能性に関する側面に着目し, RFM と MLogRM の技術的評価のための監査フレームワークを提案し, 実証する。
論文参考訳（メタデータ） (2022-11-17T12:48:11Z)
Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文参考訳（メタデータ） (2022-05-11T04:00:44Z)
Towards a multi-stakeholder value-based assessment framework for algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文参考訳（メタデータ） (2022-05-09T19:28:32Z)
PermuteAttack: Counterfactual Explanation of Machine Learning Credit Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文参考訳（メタデータ） (2020-08-24T00:05:13Z)
Fairness by Explicability and Adversarial SHAP Learning [0.0]
本稿では,外部監査役の役割とモデル説明可能性を強調するフェアネスの新たな定義を提案する。逆代理モデルのSHAP値から構築した正規化を用いてモデルバイアスを緩和するフレームワークを開発する。合成データセット、UCIアダルト(国勢調査)データセット、実世界の信用評価データセットである。
論文参考訳（メタデータ） (2020-03-11T14:36:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。