論文の概要: Concept Drift Detection via Equal Intensity k-means Space Partitioning
- arxiv url: http://arxiv.org/abs/2004.11587v1
- Date: Fri, 24 Apr 2020 08:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 02:59:09.769725
- Title: Concept Drift Detection via Equal Intensity k-means Space Partitioning
- Title(参考訳): 等強度k平均空間分割による概念ドリフト検出
- Authors: Anjin Liu, Jie Lu, Guangquan Zhang
- Abstract要約: 等強度k平均空間分割(EI-kMeans)というクラスタベースのヒストグラム
3つのアルゴリズムは、グリーディセントロイドアルゴリズム、クラスタ増幅シンクアルゴリズム、ドリフト検出アルゴリズムを含む、概念ドリフト検出を実装するために開発された。
合成および実世界のデータセットの実験は、EI-kMeansの利点を示し、コンセプトドリフトを検出する効果を示す。
- 参考スコア(独自算出の注目度): 40.77597229122878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data stream poses additional challenges to statistical classification tasks
because distributions of the training and target samples may differ as time
passes. Such distribution change in streaming data is called concept drift.
Numerous histogram-based distribution change detection methods have been
proposed to detect drift. Most histograms are developed on grid-based or
tree-based space partitioning algorithms which makes the space partitions
arbitrary, unexplainable, and may cause drift blind-spots. There is a need to
improve the drift detection accuracy for histogram-based methods with the
unsupervised setting. To address this problem, we propose a cluster-based
histogram, called equal intensity k-means space partitioning (EI-kMeans). In
addition, a heuristic method to improve the sensitivity of drift detection is
introduced. The fundamental idea of improving the sensitivity is to minimize
the risk of creating partitions in distribution offset regions. Pearson's
chi-square test is used as the statistical hypothesis test so that the test
statistics remain independent of the sample distribution. The number of bins
and their shapes, which strongly influence the ability to detect drift, are
determined dynamically from the sample based on an asymptotic constraint in the
chi-square test. Accordingly, three algorithms are developed to implement
concept drift detection, including a greedy centroids initialization algorithm,
a cluster amplify-shrink algorithm, and a drift detection algorithm. For drift
adaptation, we recommend retraining the learner if a drift is detected. The
results of experiments on synthetic and real-world datasets demonstrate the
advantages of EI-kMeans and show its efficacy in detecting concept drift.
- Abstract(参考訳): データストリームは、トレーニングとターゲットサンプルの分布が時間経過とともに異なる可能性があるため、統計分類タスクにさらなる課題をもたらす。
このようなストリーミングデータの分布変化をコンセプトドリフトと呼ぶ。
ヒストグラムに基づく分布変化検出法が多数提案されている。
ほとんどのヒストグラムはグリッドベースまたはツリーベースの空間分割アルゴリズムに基づいて開発されており、空間分割を任意に、説明不能にし、ドリフト盲点を引き起こす可能性がある。
ヒストグラムに基づく手法のドリフト検出精度を教師なし設定で向上させる必要がある。
この問題を解決するために,等強度k平均空間分割(EI-kMeans)と呼ばれるクラスタベースのヒストグラムを提案する。
また,ドリフト検出の感度を向上させるためのヒューリスティック手法を提案する。
感度を改善する基本的な考え方は、分散オフセット領域におけるパーティション生成のリスクを最小限に抑えることである。
ピアソンのカイ二乗検定は統計的仮説検定として用いられ、テスト統計は標本分布とは独立に保たれる。
カイ二乗検定における漸近的制約に基づき、試料からドリフト検出能力に強く影響を及ぼすビン数とその形状を動的に決定する。
そこで, 3つのアルゴリズムを用いて, グリーディ・セントロイド初期化アルゴリズム, クラスタ増幅・縮小アルゴリズム, ドリフト検出アルゴリズムを含むドリフト検出を実現する。
ドリフト適応には,ドリフトが検出された場合,学習者を再トレーニングすることを推奨する。
合成および実世界のデータセットに関する実験の結果は、EI-kMeansの利点を示し、コンセプトドリフトの検出における有効性を示している。
関連論文リスト
- A Neighbor-Searching Discrepancy-based Drift Detection Scheme for Learning Evolving Data [40.00357483768265]
本研究では,Nighbor-Searching Discrepancyに基づく新しい概念ドリフト検出手法を提案する。
提案手法は,仮想ドリフトを無視しながら,実概念ドリフトを高精度に検出することができる。
また、ある階級の侵略や撤退を特定することで、分類境界の変化の方向を示すこともできる。
論文 参考訳(メタデータ) (2024-05-23T04:03:36Z) - CADM: Confusion Model-based Detection Method for Real-drift in Chunk
Data Stream [3.0885191226198785]
コンセプトドリフト検出は、健康モニタリングや故障診断といった現実の多くの応用において重要であることから、かなりの注目を集めている。
本稿では,概念的混乱に基づく限定アノテーションを用いて,チャンクデータストリーム内のリアルタイムドリフトを検出する手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T08:59:27Z) - Task-Sensitive Concept Drift Detector with Metric Learning [7.706795195017394]
提案手法は, 実測時に真のラベルにアクセスすることなくドリフトを検出することのできる, タスク依存型ドリフト検出フレームワークである。
ドリフトが分類性能に影響を与える実際のドリフトを検出し、仮想ドリフトを適切に無視することができる。
本稿では, 検出精度, 偽陽性率, 検出遅延の標準指標を1つの値に蓄積する新しい指標を用いて, 提案手法の性能評価を行う。
論文 参考訳(メタデータ) (2021-08-16T09:10:52Z) - Detecting Concept Drift With Neural Network Model Uncertainty [0.0]
不確実ドリフト検出(UDD)は、真のラベルにアクセスすることなくドリフトを検出することができる。
入力データに基づくドリフト検出とは対照的に,現在の入力データが予測モデルの特性に与える影響を考察する。
UDDは2つの合成および10の実世界のデータセットにおいて、回帰処理と分類処理の両方において、他の最先端戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-05T08:56:36Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - Concept Drift Detection: Dealing with MissingValues via Fuzzy Distance
Estimations [40.77597229122878]
データストリームでは、異なる時点に到達した観測データの分布が変化する可能性がある。
欠損値がコンセプトドリフト検出に重大な影響を与えることを示すが、ファジィ集合理論を用いて観測をモデル化することで、計算よりも信頼性の高い結果が得られる。
論文 参考訳(メタデータ) (2020-08-09T05:25:46Z) - UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional
Variational Autoencoders [81.5490760424213]
データラベリングプロセスから学習することで、RGB-Dサリエンシ検出に不確実性を利用するための第1のフレームワーク(UCNet)を提案する。
そこで本研究では,サリエンシデータラベリングにヒントを得て,確率的RGB-Dサリエンシ検出ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T04:12:59Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。