論文の概要: Novelty Detection in Sequential Data by Informed Clustering and Modeling
- arxiv url: http://arxiv.org/abs/2103.03943v2
- Date: Mon, 10 Jul 2023 10:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 23:04:47.569031
- Title: Novelty Detection in Sequential Data by Informed Clustering and Modeling
- Title(参考訳): インフォームドクラスタリングとモデリングによるシーケンスデータの新規性検出
- Authors: Linara Adilova, Siming Chen, Michael Kamp
- Abstract要約: 正常なシーケンスをモデル化し、モデル予測から新しいシーケンスのずれを測定することで、新規性を検出することができる。
本稿では、離散シーケンスクラスタリングに最先端のビジュアル分析ツールを適用し、ドメインの専門家から情報クラスタを得る。
本手法は,3つの実世界のアプリケーションシナリオにおいて,離散シーケンスに対する最先端のノベルティ検出手法より優れる。
- 参考スコア(独自算出の注目度): 8.108571247838206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novelty detection in discrete sequences is a challenging task, since
deviations from the process generating the normal data are often small or
intentionally hidden. Novelties can be detected by modeling normal sequences
and measuring the deviations of a new sequence from the model predictions.
However, in many applications data is generated by several distinct processes
so that models trained on all the data tend to over-generalize and novelties
remain undetected. We propose to approach this challenge through decomposition:
by clustering the data we break down the problem, obtaining simpler modeling
task in each cluster which can be modeled more accurately. However, this comes
at a trade-off, since the amount of training data per cluster is reduced. This
is a particular problem for discrete sequences where state-of-the-art models
are data-hungry. The success of this approach thus depends on the quality of
the clustering, i.e., whether the individual learning problems are sufficiently
simpler than the joint problem. While clustering discrete sequences
automatically is a challenging and domain-specific task, it is often easy for
human domain experts, given the right tools. In this paper, we adapt a
state-of-the-art visual analytics tool for discrete sequence clustering to
obtain informed clusters from domain experts and use LSTMs to model each
cluster individually. Our extensive empirical evaluation indicates that this
informed clustering outperforms automatic ones and that our approach
outperforms state-of-the-art novelty detection methods for discrete sequences
in three real-world application scenarios. In particular, decomposition
outperforms a global model despite less training data on each individual
cluster.
- Abstract(参考訳): 離散シーケンスにおける新規性検出は、通常データを生成するプロセスからの偏差が小さく、故意に隠されていることが多いため、難しい作業である。
正常なシーケンスをモデル化し、モデル予測から新しいシーケンスのずれを測定することで、新規性を検出することができる。
しかし、多くのアプリケーションでは、データは複数の異なるプロセスによって生成されるため、すべてのデータで訓練されたモデルは過度に一般化され、新規性は検出されない傾向にある。
データをクラスタリングすることで問題を分解し、より正確にモデル化可能な各クラスタのよりシンプルなモデリングタスクを得る。
しかし、クラスタ当たりのトレーニングデータの量が削減されるため、これはトレードオフになる。
これは、最先端のモデルがデータ格納型である離散シーケンスでは特に問題である。
このアプローチの成功はクラスタリングの品質、すなわち個々の学習問題が共同問題よりも十分単純であるかどうかに依存する。
離散シーケンスの自動クラスタリングは困難でドメイン固有のタスクだが、適切なツールを考えると、多くの場合、人間のドメインエキスパートにとって容易である。
本稿では、離散シーケンスクラスタリングのための最先端のビジュアル分析ツールを適用し、ドメインエキスパートから情報クラスタを取得し、LSTMを用いて各クラスタを個別にモデル化する。
また,本手法は,実世界の3つのシナリオにおいて,離散シーケンスに対する最先端のノベルティ検出手法よりも優れていることを示す。
特に、各クラスタのトレーニングデータが少ないにもかかわらず、分解はグローバルモデルを上回る。
関連論文リスト
- Anomaly Detection by Context Contrasting [57.695202846009714]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。
近年の自己教師型学習の進歩は、この点において大きな可能性を秘めている。
我々はコンテキスト拡張を通じて学習するCon$を提案する。
論文 参考訳(メタデータ) (2024-05-29T07:59:06Z) - Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
課題群規則化(Task Groupings Regularization)は、矛盾するタスクをグループ化し整合させることにより、モデルの不均一性から恩恵を受ける新しいアプローチである。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Time Series Data Augmentation as an Imbalanced Learning Problem [2.5536554335016417]
我々は、オーバーサンプリング戦略を用いて、合成時系列観測を作成し、予測モデルの精度を向上させる。
5502個の単変量時系列を含む7種類のデータベースを用いて実験を行った。
提案手法は,グローバルモデルとローカルモデルの両方で優れており,この2つのアプローチのトレードオフが良好であることがわかった。
論文 参考訳(メタデータ) (2024-04-29T09:27:15Z) - CDIMC-net: Cognitive Deep Incomplete Multi-view Clustering Network [53.72046586512026]
我々は,認知的深層不完全多視点クラスタリングネットワーク(CDIMC-net)という,新しい不完全多視点クラスタリングネットワークを提案する。
ビュー固有のディープエンコーダとグラフ埋め込み戦略をフレームワークに組み込むことで、各ビューの高レベルな特徴とローカル構造をキャプチャする。
人間の認知、すなわち、簡単からハードに学ぶことに基づいて、モデルトレーニングのための最も自信あるサンプルを選択するための自己評価戦略を導入する。
論文 参考訳(メタデータ) (2024-03-28T15:45:03Z) - Anonymous Learning via Look-Alike Clustering: A Precise Analysis of
Model Generalization [18.03833857491361]
プライバシーを強化するための一般的なアプローチは、個々のデータではなく匿名データを使用してモデルをトレーニングすることである。
匿名クラスタセンターを用いたトレーニングモデルが一般化能力に与える影響について分析する。
ある種の高次元状態において、匿名クラスタセンターでのトレーニングは正規化として機能し、訓練されたモデルの一般化誤差を改善する。
論文 参考訳(メタデータ) (2023-10-06T04:52:46Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Low-count Time Series Anomaly Detection [1.3207844222875191]
低数の時系列はスパースまたは断続的なイベントを記述しており、多様なデータタイプをキャプチャし監視する大規模オンラインプラットフォームで広く使われている。
低数時系列、特に低信号対雑音比をモデル化する際、いくつかの異なる課題が表面化している。
異常セグメントを持つ低カウント時系列からなるベンチマークデータセットを作成するための新しい生成手順を提案する。
論文 参考訳(メタデータ) (2023-08-24T16:58:30Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Mind Your Clever Neighbours: Unsupervised Person Re-identification via
Adaptive Clustering Relationship Modeling [19.532602887109668]
教師なし人物再識別(Re-ID)は、教師付きRe-IDモデルのスケーラビリティ問題を解決する可能性から注目されている。
既存の教師なし手法の多くは反復的なクラスタリング機構を採用しており、教師なしクラスタリングによって生成された擬似ラベルに基づいてネットワークを訓練している。
高品質な擬似ラベルを生成し,クラスタリングエラーの影響を軽減するために,教師なしのRe-IDのための新しいクラスタリング関係モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-03T10:55:07Z) - Modeling Heterogeneous Statistical Patterns in High-dimensional Data by
Adversarial Distributions: An Unsupervised Generative Framework [33.652544673163774]
本研究では,不均質な統計的パターンに適合して解き放つために,逆分布を利用した新しい非監視生成フレームワークFIRDを提案する。
離散空間に適用する場合、firdは同期された詐欺師を通常のユーザーと効果的に区別する。
論文 参考訳(メタデータ) (2020-12-15T08:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。