論文の概要: Interpreting Black-box Machine Learning Models for High Dimensional
Datasets
- arxiv url: http://arxiv.org/abs/2208.13405v3
- Date: Tue, 21 Nov 2023 08:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 21:02:14.346821
- Title: Interpreting Black-box Machine Learning Models for High Dimensional
Datasets
- Title(参考訳): 高次元データセットのためのブラックボックス機械学習モデル解釈
- Authors: Md. Rezaul Karim, Md. Shajalal, Alex Gra{\ss}, Till D\"ohmen, Sisay
Adugna Chala, Alexander Boden, Christian Beecks, Stefan Decker
- Abstract要約: 我々は、高次元データセット上でブラックボックスモデルをトレーニングし、その分類が行われる埋め込みを学習する。
次に、トップk特徴空間上の解釈可能な代理モデルを用いてブラックボックスモデルの挙動を近似する。
我々のアプローチは、異なるデータセットでテストした場合、TabNetやXGboostのような最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 40.09157165704895
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural networks (DNNs) have been shown to outperform traditional machine
learning algorithms in a broad variety of application domains due to their
effectiveness in modeling complex problems and handling high-dimensional
datasets. Many real-life datasets, however, are of increasingly high
dimensionality, where a large number of features may be irrelevant for both
supervised and unsupervised learning tasks. The inclusion of such features
would not only introduce unwanted noise but also increase computational
complexity. Furthermore, due to high non-linearity and dependency among a large
number of features, DNN models tend to be unavoidably opaque and perceived as
black-box methods because of their not well-understood internal functioning.
Their algorithmic complexity is often simply beyond the capacities of humans to
understand the interplay among myriads of hyperparameters. A well-interpretable
model can identify statistically significant features and explain the way they
affect the model's outcome. In this paper, we propose an efficient method to
improve the interpretability of black-box models for classification tasks in
the case of high-dimensional datasets. First, we train a black-box model on a
high-dimensional dataset to learn the embeddings on which the classification is
performed. To decompose the inner working principles of the black-box model and
to identify top-k important features, we employ different probing and
perturbing techniques. We then approximate the behavior of the black-box model
by means of an interpretable surrogate model on the top-k feature space.
Finally, we derive decision rules and local explanations from the surrogate
model to explain individual decisions. Our approach outperforms
state-of-the-art methods like TabNet and XGboost when tested on different
datasets with varying dimensionality between 50 and 20,000 w.r.t metrics and
explainability.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、複雑な問題のモデリングや高次元データセットの処理に有効であることから、さまざまなアプリケーション領域において、従来の機械学習アルゴリズムよりも優れていることが示されている。
しかし、多くの実生活データセットはますます高次元化しており、教師なしと教師なしの学習タスクの両方で多くの機能が無関係になる可能性がある。
このような機能の導入は、望ましくないノイズをもたらすだけでなく、計算の複雑さも増すだろう。
さらに,多数の特徴の非線型性や依存度が高いため,DNNモデルは不可避的に不透明であり,ブラックボックス法として認識される傾向にある。
アルゴリズムの複雑さはしばしば、ハイパーパラメーターの無数の相互作用を理解するために人間の能力を超える。
よく解釈可能なモデルは、統計的に重要な特徴を特定し、モデルの結果にどのように影響するかを説明することができる。
本稿では,高次元データセットの場合の分類タスクにおけるブラックボックスモデルの解釈性を向上させる効率的な手法を提案する。
まず,高次元データセット上でブラックボックスモデルを訓練し,分類を行う組込みを学習する。
ブラックボックスモデルの内部動作原理を分解し、トップkの重要特徴を特定するために、異なる探索法と摂動法を用いる。
次に,トップk特徴空間上の解釈可能なサロゲートモデルを用いてブラックボックスモデルの挙動を近似する。
最後に,サロゲートモデルから決定ルールと局所的説明を導出し,個々の決定を説明する。
当社のアプローチは,50~20,000wr.tのメトリクスと説明可能性の異なる異なるデータセットでテストした場合,TabNetやXGboostのような最先端の手法よりも優れています。
関連論文リスト
- DREAM: Domain-free Reverse Engineering Attributes of Black-box Model [51.37041886352823]
ブラックボックス対象モデルの属性をドメインに依存しないリバースエンジニアリングの新しい問題を提案する。
対象のブラックボックスモデルの属性を未知のトレーニングデータで推測するために,ドメインに依存しないモデルを学ぶ。
論文 参考訳(メタデータ) (2023-07-20T16:25:58Z) - Learning Active Subspaces and Discovering Important Features with Gaussian Radial Basis Functions Neural Networks [0.0]
モデルの訓練が完了すると抽出できる精度行列のスペクトルに含まれる貴重な情報を示す。
回帰,分類,特徴選択タスクの数値実験を行った。
その結果,提案モデルが競合モデルに比べて魅力的な予測性能が得られるだけでなく,予測性能も向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-11T09:54:30Z) - Interpretable ML for Imbalanced Data [22.355966235617014]
不均衡なデータは、クラス間の関係が歪んで不明瞭である可能性があるため、ディープ・ネットワークのブラックボックスの性質を合成する。
不均衡なデータの複雑性を調査する既存の手法は、バイナリ分類、浅い学習モデル、低次元データを対象としている。
本稿では,ディープラーニングモデルの利用者がクラスプロトタイプ,サブコンセプト,アウトリアインスタンスを識別し,視覚化し,理解するために利用できる一連の手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T11:50:31Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Neural Basis Models for Interpretability [33.51591891812176]
一般化加法モデル(GAMs)は本質的に解釈可能なモデルのクラスである。
形状関数の基底分解を利用するGAMの全く新しいサブファミリーを提案する。
少数の基底関数はすべての機能で共有され、与えられたタスクに対して共同で学習される。
論文 参考訳(メタデータ) (2022-05-27T17:31:19Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Design of Dynamic Experiments for Black-Box Model Discrimination [72.2414939419588]
選択したいような動的モデル判別の設定を考えてみましょう。 (i) 最高のメカニスティックな時間変化モデルと (ii) 最高のモデルパラメータ推定値です。
勾配情報にアクセス可能な競合する力学モデルに対しては、既存の手法を拡張し、より広い範囲の問題の不確実性を組み込む。
これらのブラックボックスモデルをガウス過程サロゲートモデルに置き換えることで、モデル識別設定を拡張して、競合するブラックボックスモデルをさらに取り入れる。
論文 参考訳(メタデータ) (2021-02-07T11:34:39Z) - Causality-aware counterfactual confounding adjustment for feature
representations learned by deep models [14.554818659491644]
因果モデリングは機械学習(ML)における多くの課題に対する潜在的な解決策として認識されている。
深層ニューラルネットワーク(DNN)モデルによって学習された特徴表現を分解するために、最近提案された対実的アプローチが依然として使われている方法について説明する。
論文 参考訳(メタデータ) (2020-04-20T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。