論文の概要: Detecting Concept Drift in the Presence of Sparsity -- A Case Study of
Automated Change Risk Assessment System
- arxiv url: http://arxiv.org/abs/2207.13287v1
- Date: Wed, 27 Jul 2022 04:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:46:56.080171
- Title: Detecting Concept Drift in the Presence of Sparsity -- A Case Study of
Automated Change Risk Assessment System
- Title(参考訳): スパーシティの存在下でのコンセプトドリフトの検出 -自動変化リスク評価システムのケーススタディ-
- Authors: Vishwas Choudhary, Binay Gupta, Anirban Chatterjee, Subhadip Paul,
Kunal Banerjee, Vijay Agneeswaran
- Abstract要約: 文学におけるテクスティットパリシティ(textitsparsity)と呼ばれる欠落値は、多くの実世界のデータセットの共通の特徴である。
本研究では,異なる種類の疎性に対する様々な統計およびMLに基づくデータ計算手法の欠落した値のパターンについて検討する。
次に、異なるメトリクスに基づいて、欠落した値を持つデータセットを与えられた最良のコンセプトドリフト検出器を選択する。
- 参考スコア(独自算出の注目度): 0.8021979227281782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing values, widely called as \textit{sparsity} in literature, is a common
characteristic of many real-world datasets. Many imputation methods have been
proposed to address this problem of data incompleteness or sparsity. However,
the accuracy of a data imputation method for a given feature or a set of
features in a dataset is highly dependent on the distribution of the feature
values and its correlation with other features. Another problem that plagues
industry deployments of machine learning (ML) solutions is concept drift
detection, which becomes more challenging in the presence of missing values.
Although data imputation and concept drift detection have been studied
extensively, little work has attempted a combined study of the two phenomena,
i.e., concept drift detection in the presence of sparsity. In this work, we
carry out a systematic study of the following: (i) different patterns of
missing values, (ii) various statistical and ML based data imputation methods
for different kinds of sparsity, (iii) several concept drift detection methods,
(iv) practical analysis of the various drift detection metrics, (v) selecting
the best concept drift detector given a dataset with missing values based on
the different metrics. We first analyze it on synthetic data and publicly
available datasets, and finally extend the findings to our deployed solution of
automated change risk assessment system. One of the major findings from our
empirical study is the absence of supremacy of any one concept drift detection
method across all the relevant metrics. Therefore, we adopt a majority voting
based ensemble of concept drift detectors for abrupt and gradual concept
drifts. Our experiments show optimal or near optimal performance can be
achieved for this ensemble method across all the metrics.
- Abstract(参考訳): 文学では「textit{sparsity}」と呼ばれ、多くの実世界のデータセットの共通した特徴である。
データ不完全性や疎性の問題に対処する多くの計算法が提案されている。
しかし、ある特徴に対するデータ計算手法の精度やデータセット内の特徴の集合は、特徴値の分布と他の特徴との相関に大きく依存している。
機械学習(ML)ソリューションの業界展開を悩ませているもうひとつの問題はコンセプトドリフト検出である。
データ計算とコンセプトドリフト検出は広く研究されているが、この2つの現象、すなわち概念ドリフト検出を疎性の存在下で組み合わせた研究はほとんど行われていない。
本研究では,以下の体系的な研究を行う。
(i)欠落した値の異なるパターン
(ii)様々な種類のスパース性に対する統計およびmlに基づくデータインプテーション方法
(iii)いくつかの概念ドリフト検出方法
(4)様々なドリフト検出指標の実際的分析
(v) 異なる指標に基づいて、欠落した値のデータセットを与えられた最良の概念ドリフト検出器を選択する。
まず、合成データと公開データセットに基づいて分析し、最終的に、自動変更リスク評価システムのデプロイソリューションにその結果を拡張します。
実験的な研究から得られた大きな発見の1つは、関連するすべての指標にまたがる1つの概念ドリフト検出方法の優位性の欠如である。
そこで我々は,突発的および漸進的なコンセプトドリフトに対して,多数決に基づく概念ドリフト検出器のアンサンブルを採用する。
本実験では,全測定値にまたがるアンサンブル法において,最適あるいはほぼ最適性能が得られることを示す。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Online Drift Detection with Maximum Concept Discrepancy [13.48123472458282]
最大概念差に基づく新しい概念ドリフト検出手法であるMDD-DDを提案する。
本手法は,概念埋め込みのコントラスト学習により,様々な形態のコンセプトドリフトを適応的に同定することができる。
論文 参考訳(メタデータ) (2024-07-07T13:57:50Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - A Neighbor-Searching Discrepancy-based Drift Detection Scheme for Learning Evolving Data [40.00357483768265]
本研究では,Nighbor-Searching Discrepancyに基づく新しい概念ドリフト検出手法を提案する。
提案手法は,仮想ドリフトを無視しながら,実概念ドリフトを高精度に検出することができる。
また、ある階級の侵略や撤退を特定することで、分類境界の変化の方向を示すこともできる。
論文 参考訳(メタデータ) (2024-05-23T04:03:36Z) - Fault Detection and Monitoring using an Information-Driven Strategy: Method, Theory, and Application [5.056456697289351]
本稿では,新しいコンセプトドリフト検出器に基づく情報駆動型故障検出手法を提案する。
本手法は,加法雑音モデルの入出力関係におけるドリフトの同定に適している。
提案したMIに基づく故障検出手法の理論的特性を実証する。
論文 参考訳(メタデータ) (2024-05-06T17:43:39Z) - Towards stable real-world equation discovery with assessing
differentiating quality influence [52.2980614912553]
一般的に用いられる有限差分法に代わる方法を提案する。
我々は,これらの手法を実問題と類似した問題に適用可能であること,および方程式発見アルゴリズムの収束性を確保する能力の観点から評価する。
論文 参考訳(メタデータ) (2023-11-09T23:32:06Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Detecting Concept Drift With Neural Network Model Uncertainty [0.0]
不確実ドリフト検出(UDD)は、真のラベルにアクセスすることなくドリフトを検出することができる。
入力データに基づくドリフト検出とは対照的に,現在の入力データが予測モデルの特性に与える影響を考察する。
UDDは2つの合成および10の実世界のデータセットにおいて、回帰処理と分類処理の両方において、他の最先端戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-05T08:56:36Z) - Meta-learning One-class Classifiers with Eigenvalue Solvers for
Supervised Anomaly Detection [55.888835686183995]
教師付き異常検出のためのニューラルネットワークに基づくメタラーニング手法を提案する。
提案手法は,既存の異常検出法や少数ショット学習法よりも優れた性能を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-01T01:43:04Z) - Concept Drift Detection: Dealing with MissingValues via Fuzzy Distance
Estimations [40.77597229122878]
データストリームでは、異なる時点に到達した観測データの分布が変化する可能性がある。
欠損値がコンセプトドリフト検出に重大な影響を与えることを示すが、ファジィ集合理論を用いて観測をモデル化することで、計算よりも信頼性の高い結果が得られる。
論文 参考訳(メタデータ) (2020-08-09T05:25:46Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。