論文の概要: Concept Drift Detection: Dealing with MissingValues via Fuzzy Distance
Estimations
- arxiv url: http://arxiv.org/abs/2008.03662v1
- Date: Sun, 9 Aug 2020 05:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 03:58:17.689738
- Title: Concept Drift Detection: Dealing with MissingValues via Fuzzy Distance
Estimations
- Title(参考訳): 概念ドリフト検出:ファジィ距離推定による欠落値の扱い
- Authors: Anjin Liu, Jie Lu, Guangquan Zhang
- Abstract要約: データストリームでは、異なる時点に到達した観測データの分布が変化する可能性がある。
欠損値がコンセプトドリフト検出に重大な影響を与えることを示すが、ファジィ集合理論を用いて観測をモデル化することで、計算よりも信頼性の高い結果が得られる。
- 参考スコア(独自算出の注目度): 40.77597229122878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In data streams, the data distribution of arriving observations at different
time points may change - a phenomenon called concept drift. While detecting
concept drift is a relatively mature area of study, solutions to the
uncertainty introduced by observations with missing values have only been
studied in isolation. No one has yet explored whether or how these solutions
might impact drift detection performance. We, however, believe that data
imputation methods may actually increase uncertainty in the data rather than
reducing it. We also conjecture that imputation can introduce bias into the
process of estimating distribution changes during drift detection, which can
make it more difficult to train a learning model. Our idea is to focus on
estimating the distance between observations rather than estimating the missing
values, and to define membership functions that allocate observations to
histogram bins according to the estimation errors. Our solution comprises a
novel masked distance learning (MDL) algorithm to reduce the cumulative errors
caused by iteratively estimating each missing value in an observation and a
fuzzy-weighted frequency (FWF) method for identifying discrepancies in the data
distribution. The concept drift detection algorithm proposed in this paper is a
singular and unified algorithm that can handle missing values, but not an
imputation algorithm combined with a concept drift detection algorithm.
Experiments on both synthetic and real-world data sets demonstrate the
advantages of this method and show its robustness in detecting drift in data
with missing values. These findings reveal that missing values exert a profound
impact on concept drift detection, but using fuzzy set theory to model
observations can produce more reliable results than imputation.
- Abstract(参考訳): データストリームでは、到着した観測の異なる時点におけるデータ分布が変化する可能性がある - 概念ドリフトと呼ばれる現象だ。
概念の漂流を検出することは比較的成熟した研究分野であるが、観測結果から得られた不確実性に対する解決法は孤立して研究されている。
これらのソリューションがドリフト検出性能にどのように影響するかはまだ検討されていない。
しかし、データ計算手法はデータを減らすのではなく、実際にデータの不確実性を増大させる可能性があると考えている。
また,ドリフト検出時に分布変化を推定するプロセスにバイアスを生じさせる可能性があり,学習モデルの学習が困難になる可能性がある。
本研究の目的は, 観測値の欠落を推定するよりも, 観測距離を推定することに集中し, 推定誤差に応じて観測値をヒストグラムビンに割り当てるメンバシップ関数を定義することである。
本手法は,観測における各欠落値の反復推定による累積誤差を低減するための新しいマスク付き距離学習 (MDL) アルゴリズムと,データ分布の相違点を同定するためのファジィ重み付き周波数 (FWF) 法を備える。
本論文で提案するコンセプトドリフト検出アルゴリズムは,不足値を扱うことができる特異かつ統一的なアルゴリズムであるが,概念ドリフト検出アルゴリズムと組み合わせた計算アルゴリズムではない。
合成と実世界の両方のデータセットの実験は、この手法の利点を示し、欠落した値を持つデータのドリフトの検出における頑健さを示している。
これらの結果から, 欠損値がコンセプトドリフト検出に多大な影響を及ぼすことが明らかとなったが, ファジィ・セット理論をモデル観測に用いると, 計算よりも信頼性の高い結果が得られることがわかった。
関連論文リスト
- A Neighbor-Searching Discrepancy-based Drift Detection Scheme for Learning Evolving Data [40.00357483768265]
本研究では,Nighbor-Searching Discrepancyに基づく新しい概念ドリフト検出手法を提案する。
提案手法は,仮想ドリフトを無視しながら,実概念ドリフトを高精度に検出することができる。
また、ある階級の侵略や撤退を特定することで、分類境界の変化の方向を示すこともできる。
論文 参考訳(メタデータ) (2024-05-23T04:03:36Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - CADM: Confusion Model-based Detection Method for Real-drift in Chunk
Data Stream [3.0885191226198785]
コンセプトドリフト検出は、健康モニタリングや故障診断といった現実の多くの応用において重要であることから、かなりの注目を集めている。
本稿では,概念的混乱に基づく限定アノテーションを用いて,チャンクデータストリーム内のリアルタイムドリフトを検出する手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T08:59:27Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Detecting Concept Drift in the Presence of Sparsity -- A Case Study of
Automated Change Risk Assessment System [0.8021979227281782]
文学におけるテクスティットパリシティ(textitsparsity)と呼ばれる欠落値は、多くの実世界のデータセットの共通の特徴である。
本研究では,異なる種類の疎性に対する様々な統計およびMLに基づくデータ計算手法の欠落した値のパターンについて検討する。
次に、異なるメトリクスに基づいて、欠落した値を持つデータセットを与えられた最良のコンセプトドリフト検出器を選択する。
論文 参考訳(メタデータ) (2022-07-27T04:27:49Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Detecting Concept Drift With Neural Network Model Uncertainty [0.0]
不確実ドリフト検出(UDD)は、真のラベルにアクセスすることなくドリフトを検出することができる。
入力データに基づくドリフト検出とは対照的に,現在の入力データが予測モデルの特性に与える影響を考察する。
UDDは2つの合成および10の実世界のデータセットにおいて、回帰処理と分類処理の両方において、他の最先端戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-05T08:56:36Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z) - Concept Drift Detection via Equal Intensity k-means Space Partitioning [40.77597229122878]
等強度k平均空間分割(EI-kMeans)というクラスタベースのヒストグラム
3つのアルゴリズムは、グリーディセントロイドアルゴリズム、クラスタ増幅シンクアルゴリズム、ドリフト検出アルゴリズムを含む、概念ドリフト検出を実装するために開発された。
合成および実世界のデータセットの実験は、EI-kMeansの利点を示し、コンセプトドリフトを検出する効果を示す。
論文 参考訳(メタデータ) (2020-04-24T08:00:16Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。