論文の概要: On Predictive Explanation of Data Anomalies
- arxiv url: http://arxiv.org/abs/2110.09467v1
- Date: Mon, 18 Oct 2021 16:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 18:10:45.407109
- Title: On Predictive Explanation of Data Anomalies
- Title(参考訳): データ異常の予測的説明について
- Authors: Nikolaos Myrtakis, Ioannis Tsamardinos, Vassilis Christophides
- Abstract要約: PROTEUSは、不均衡なデータセットの機能選択用に設計されたAutoMLパイプラインである。
教師なし検出器の決定面を近似することで予測的な説明を生成する。
予期せぬデータで予測性能を確実に推定する。
- 参考スコア(独自算出の注目度): 3.1798318618973362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous algorithms have been proposed for detecting anomalies (outliers,
novelties) in an unsupervised manner. Unfortunately, it is not trivial, in
general, to understand why a given sample (record) is labelled as an anomaly
and thus diagnose its root causes. We propose the following
reduced-dimensionality, surrogate model approach to explain detector decisions:
approximate the detection model with another one that employs only a small
subset of features. Subsequently, samples can be visualized in this
low-dimensionality space for human understanding. To this end, we develop
PROTEUS, an AutoML pipeline to produce the surrogate model, specifically
designed for feature selection on imbalanced datasets. The PROTEUS surrogate
model can not only explain the training data, but also the out-of-sample
(unseen) data. In other words, PROTEUS produces predictive explanations by
approximating the decision surface of an unsupervised detector. PROTEUS is
designed to return an accurate estimate of out-of-sample predictive performance
to serve as a metric of the quality of the approximation. Computational
experiments confirm the efficacy of PROTEUS to produce predictive explanations
for different families of detectors and to reliably estimate their predictive
performance in unseen data. Unlike several ad-hoc feature importance methods,
PROTEUS is robust to high-dimensional data.
- Abstract(参考訳): 異常(異常、新規性)を教師なしで検出するアルゴリズムが多数提案されている。
残念なことに、一般に、あるサンプル(記録)がなぜ異常であるとラベル付けされ、したがって根本原因を診断されるのかを理解することは自明ではない。
そこで本研究では, 検出モデルと, 少数の特徴量のみを用いる他のモデルとを近似した, 検出決定のための下記の縮小次元モデル手法を提案する。
その後、人間の理解のためにこの低次元空間でサンプルを視覚化することができる。
この目的のために,不均衡なデータセットの特徴選択に特化して設計されたサロゲートモデルを生成するAutoMLパイプラインであるProteusを開発した。
proteus surrogateモデルでは、トレーニングデータだけでなく、アウト・オブ・サンプル(unseen)データも説明できる。
言い換えると、プロテウスは教師なし検出器の決定面を近似して予測的な説明を生成する。
PROTEUSは、近似の品質の指標となるために、サンプル外予測性能の正確な見積もりを返すように設計されている。
計算実験により、プロテウスは、異なる種類の検出器の予測説明を生成し、その予測性能を確実に推定する。
いくつかのアドホック特徴量法とは異なり、プロテウスは高次元データに対して頑健である。
関連論文リスト
- PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis [2.5347892611213614]
分類のためのディープニューラルネットワークは、サンプル入力に対する小さな摂動が誤った予測につながる敵攻撃に対して脆弱である。
本研究では, モデル予測と特徴属性のこの特性の実用的手法を開発し, 対向サンプルを検出する。
本手法は,敵が防御機構を認識した場合でも,競争性能を示す。
論文 参考訳(メタデータ) (2024-04-12T21:22:21Z) - LMD: Light-weight Prediction Quality Estimation for Object Detection in
Lidar Point Clouds [3.927702899922668]
Lidarのクラウドデータのオブジェクト検出は、自動運転とロボット工学にとって有望な技術だ。
不確実性推定は下流タスクにとって重要な要素であり、ディープニューラルネットワークは信頼性の高い予測であってもエラーを起こしやすい。
予測品質推定のための軽量後処理方式LidarMetaDetectを提案する。
本実験は,偽予測から真を分離する際の統計的信頼性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-06-13T15:13:29Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Robust self-healing prediction model for high dimensional data [0.685316573653194]
本研究は、ロバスト自己治癒(RSH)ハイブリッド予測モデルを提案する。
それは、データを捨てるのではなく、エラーや不整合を取り除くことによって、データ全体を活用することによって機能する。
提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。
論文 参考訳(メタデータ) (2022-10-04T17:55:50Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Out-of-distribution detection for regression tasks: parameter versus
predictor entropy [2.026281591452464]
マシンラーニングモデルが信頼されるためのトレーニングサンプルから、インスタンスが正しく外れていることを検出することが重要です。
ニューラルネットワークの場合、このタスクの1つのアプローチは、トレーニングデータを説明することができる予測子の多様性を学習することである。
そこで本研究では,関数空間に近接する隣接点に基づく予測器上の分布のエントロピーを推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T21:41:21Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - A Causal Direction Test for Heterogeneous Populations [10.653162005300608]
ほとんどの因果モデルでは、単一の同質な集団を仮定するが、これは多くの応用において成り立たない仮定である。
等質性仮定に違反した場合、そのような仮定に基づいて開発された因果モデルが正しい因果方向を識別できないことを示す。
我々は,$k$-means型クラスタリングアルゴリズムを用いて,一般的な因果方向検定統計量の調整を提案する。
論文 参考訳(メタデータ) (2020-06-08T18:59:14Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。