論文の概要: Novelty Detection in Sequential Data by Informed Clustering and Modeling
- arxiv url: http://arxiv.org/abs/2103.03943v1
- Date: Fri, 5 Mar 2021 20:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:29:53.223368
- Title: Novelty Detection in Sequential Data by Informed Clustering and Modeling
- Title(参考訳): インフォームドクラスタリングとモデリングによるシーケンスデータの新規性検出
- Authors: Linara Adilova, Siming Chen, Michael Kamp
- Abstract要約: 正常なシーケンスをモデル化し、モデル予測から新しいシーケンスのずれを測定することで、新規性を検出することができる。
本稿では、離散シーケンスクラスタリングに最先端のビジュアル分析ツールを適用し、ドメインの専門家から情報クラスタを得る。
本手法は,3つの実世界のアプリケーションシナリオにおいて,離散シーケンスに対する最先端のノベルティ検出手法より優れる。
- 参考スコア(独自算出の注目度): 7.647250081001171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novelty detection in discrete sequences is a challenging task, since
deviations from the process generating the normal data are often small or
intentionally hidden. Novelties can be detected by modeling normal sequences
and measuring the deviations of a new sequence from the model predictions.
However, in many applications data is generated by several distinct processes
so that models trained on all the data tend to over-generalize and novelties
remain undetected. We propose to approach this challenge through decomposition:
by clustering the data we break down the problem, obtaining simpler modeling
task in each cluster which can be modeled more accurately. However, this comes
at a trade-off, since the amount of training data per cluster is reduced. This
is a particular problem for discrete sequences where state-of-the-art models
are data-hungry. The success of this approach thus depends on the quality of
the clustering, i.e., whether the individual learning problems are sufficiently
simpler than the joint problem. While clustering discrete sequences
automatically is a challenging and domain-specific task, it is often easy for
human domain experts, given the right tools. In this paper, we adapt a
state-of-the-art visual analytics tool for discrete sequence clustering to
obtain informed clusters from domain experts and use LSTMs to model each
cluster individually. Our extensive empirical evaluation indicates that this
informed clustering outperforms automatic ones and that our approach
outperforms state-of-the-art novelty detection methods for discrete sequences
in three real-world application scenarios. In particular, decomposition
outperforms a global model despite less training data on each individual
cluster.
- Abstract(参考訳): 通常のデータを生成するプロセスからの逸脱は、しばしば小さく、意図的に隠されるため、離散シーケンスにおけるノベルティ検出は難しい作業です。
正常なシーケンスをモデル化し、モデル予測から新しいシーケンスのずれを測定することで、新規性を検出することができる。
しかし、多くのアプリケーションでは、データは複数の異なるプロセスによって生成されるため、すべてのデータで訓練されたモデルは過剰に一般化され、新規性は検出されない。
データをクラスタリングすることで問題を分解し、より正確にモデル化可能な各クラスタのよりシンプルなモデリングタスクを得る。
しかし、クラスタ当たりのトレーニングデータの量が削減されるため、これはトレードオフになる。
これは、最先端のモデルがデータ格納型である離散シーケンスでは特に問題である。
このアプローチの成功はクラスタリングの品質、すなわち個々の学習問題が共同問題よりも十分単純であるかどうかに依存する。
離散シーケンスの自動クラスタリングは困難でドメイン固有のタスクだが、適切なツールを考えると、多くの場合、人間のドメインエキスパートにとって容易である。
本稿では、離散シーケンスクラスタリングのための最先端のビジュアル分析ツールを適用し、ドメインエキスパートから情報クラスタを取得し、LSTMを用いて各クラスタを個別にモデル化する。
また,本手法は,実世界の3つのシナリオにおいて,離散シーケンスに対する最先端のノベルティ検出手法よりも優れていることを示す。
特に、各クラスタのトレーニングデータが少ないにもかかわらず、分解はグローバルモデルを上回る。
関連論文リスト
- Anonymous Learning via Look-Alike Clustering: A Precise Analysis of
Model Generalization [18.03833857491361]
プライバシーを強化するための一般的なアプローチは、個々のデータではなく匿名データを使用してモデルをトレーニングすることである。
匿名クラスタセンターを用いたトレーニングモデルが一般化能力に与える影響について分析する。
ある種の高次元状態において、匿名クラスタセンターでのトレーニングは正規化として機能し、訓練されたモデルの一般化誤差を改善する。
論文 参考訳(メタデータ) (2023-10-06T04:52:46Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Low-count Time Series Anomaly Detection [1.3207844222875191]
低数の時系列はスパースまたは断続的なイベントを記述しており、多様なデータタイプをキャプチャし監視する大規模オンラインプラットフォームで広く使われている。
低数時系列、特に低信号対雑音比をモデル化する際、いくつかの異なる課題が表面化している。
異常セグメントを持つ低カウント時系列からなるベンチマークデータセットを作成するための新しい生成手順を提案する。
論文 参考訳(メタデータ) (2023-08-24T16:58:30Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Interpretable Deep Clustering [3.9596068699962315]
本稿では,インスタンスとクラスタレベルでの解釈可能なクラスタ割り当てを予測する,新たなディープラーニングフレームワークを提案する。
提案手法は,合成データと実データを用いてクラスタ割り当てを確実に予測できることを示す。
論文 参考訳(メタデータ) (2023-06-07T21:08:09Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Mind Your Clever Neighbours: Unsupervised Person Re-identification via
Adaptive Clustering Relationship Modeling [19.532602887109668]
教師なし人物再識別(Re-ID)は、教師付きRe-IDモデルのスケーラビリティ問題を解決する可能性から注目されている。
既存の教師なし手法の多くは反復的なクラスタリング機構を採用しており、教師なしクラスタリングによって生成された擬似ラベルに基づいてネットワークを訓練している。
高品質な擬似ラベルを生成し,クラスタリングエラーの影響を軽減するために,教師なしのRe-IDのための新しいクラスタリング関係モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-03T10:55:07Z) - Modeling Heterogeneous Statistical Patterns in High-dimensional Data by
Adversarial Distributions: An Unsupervised Generative Framework [33.652544673163774]
本研究では,不均質な統計的パターンに適合して解き放つために,逆分布を利用した新しい非監視生成フレームワークFIRDを提案する。
離散空間に適用する場合、firdは同期された詐欺師を通常のユーザーと効果的に区別する。
論文 参考訳(メタデータ) (2020-12-15T08:51:20Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。