論文の概要: Efficient Subspace Search in Data Streams
- arxiv url: http://arxiv.org/abs/2011.06959v2
- Date: Thu, 7 Jan 2021 11:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 00:46:50.958323
- Title: Efficient Subspace Search in Data Streams
- Title(参考訳): データストリームにおける効率的な部分空間探索
- Authors: Edouard Fouch\'e, Florian Kalinke, Klemens B\"ohm
- Abstract要約: 現実の世界では、データストリームはユビキタスで、ネットワークトラフィックやセンサデータを考えてください。例えば、外れ値やクラスタなどのマイニングパターンは、そのようなデータからリアルタイムで行われなければなりません。
ストリームはしばしば高次元性を持ち、(2)データ特性は時間とともに変化する可能性があるため、これは難しい。
既存のアプローチでは,高次元あるいはストリーミング設定の具体的部分のいずれにおいても,ひとつの側面にのみ注目する傾向があります。
静的データに対して、部分空間探索(subspace search)として知られる高次元を扱う一般的なアプローチは、パターンがパターンである低次元の興味深い投影(subspace)を抽出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the real world, data streams are ubiquitous -- think of network traffic or
sensor data. Mining patterns, e.g., outliers or clusters, from such data must
take place in real time. This is challenging because (1) streams often have
high dimensionality, and (2) the data characteristics may change over time.
Existing approaches tend to focus on only one aspect, either high
dimensionality or the specifics of the streaming setting. For static data, a
common approach to deal with high dimensionality -- known as subspace search --
extracts low-dimensional, `interesting' projections (subspaces), in which
patterns are easier to find. In this paper, we address both Challenge (1) and
(2) by generalising subspace search to data streams. Our approach, Streaming
Greedy Maximum Random Deviation (SGMRD), monitors interesting subspaces in
high-dimensional data streams. It leverages novel multivariate dependency
estimators and monitoring techniques based on bandit theory. We show that the
benefits of SGMRD are twofold: (i) It monitors subspaces efficiently, and (ii)
this improves the results of downstream data mining tasks, such as outlier
detection. Our experiments, performed against synthetic and real-world data,
demonstrate that SGMRD outperforms its competitors by a large margin.
- Abstract(参考訳): In the real world, data streams are ubiquitous -- think of network traffic or sensor data. Mining patterns, e.g., outliers or clusters, from such data must take place in real time. This is challenging because (1) streams often have high dimensionality, and (2) the data characteristics may change over time. Existing approaches tend to focus on only one aspect, either high dimensionality or the specifics of the streaming setting. For static data, a common approach to deal with high dimensionality -- known as subspace search -extracts low-dimensional, `interesting' projections (subspaces), in which patterns are easier to find.
本稿では,サブスペース探索をデータストリームに一般化することで,課題(1)と(2)の両方に対処する。
我々のアプローチであるStreaming Greedy Maximum Random Deviation (SGMRD)は、高次元データストリームにおける興味深い部分空間を監視する。
バンディット理論に基づく新しい多変量依存性推定とモニタリング技術を利用する。
SGMRDの利点は2つあります。
(i)サブスペースを効率的に監視し、
(ii)これは、異常検出などの下流データマイニングタスクの結果を改善する。
我々の実験は、合成および実世界のデータに対して行われ、SGMRDがライバルよりも大きなマージンで優れていることを示した。
関連論文リスト
- Generative Subspace Adversarial Active Learning for Outlier Detection in Multiple Views of High-dimensional Data [3.501071975888134]
本稿では,高次元データにおける外乱検出のためのGSAAL(Generative Subspace Adversarial Active Learning)を提案する。
GSAALは、不適切な仮定(IA)、次元の呪い(CD)、多視点(MV)を扱いながら、MV制限に対処するように設計されている。
実験では,GSAALの有効性とスケーラビリティを実証し,他のOD法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-04-20T19:22:05Z) - Encoding Temporal Statistical-space Priors via Augmented Representation [0.6116681488656472]
我々は,時系列データモデリングにおける課題を克服するために,単純な表現拡張手法を利用する。
統計的空間拡張表現(SSAR)は,各ステップで符号化される前の統計空間として機能する。
私たちのアプローチは、最新の5つのベースラインを大きく上回っています。
論文 参考訳(メタデータ) (2024-01-30T08:11:36Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Imbalanced Aircraft Data Anomaly Detection [103.01418862972564]
航空シナリオ下でのセンサーからの時間データの異常検出は実用的だが難しい課題である。
本稿では,グラフィカル・テンポラル・データ分析フレームワークを提案する。
シリーズ・トゥ・イメージ (S2I) と呼ばれる3つのモジュール、ユークリッド距離 (CRD) を用いたクラスタ・ベース・リサンプリング・アプローチ、変数・ベース・ロス (VBL) から構成される。
論文 参考訳(メタデータ) (2023-05-17T09:37:07Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - An Efficient Anomaly Detection Approach using Cube Sampling with
Streaming Data [2.0515785954568626]
異常検出は侵入検知、健康モニタリング、故障診断、センサネットワークイベント検出など様々な分野で重要である。
孤立林(アイフォレスト)アプローチは、異常を検出するためのよく知られた手法である。
本稿では,ストリーミングデータに有効なキューブサンプリングを用いた,効率的なiForestに基づく異常検出手法を提案する。
論文 参考訳(メタデータ) (2021-10-05T04:23:00Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Unsupervised Deep Anomaly Detection for Multi-Sensor Time-Series Signals [10.866594993485226]
本稿では,Deep Convolutional Autoencoding Memory Network (CAE-M) という,ディープラーニングに基づく新しい異常検出アルゴリズムを提案する。
我々はまず,最大平均離散値(MMD)を用いたマルチセンサデータの空間依存性を特徴付けるディープ畳み込みオートエンコーダを構築する。
そして,線形(自己回帰モデル)と非線形予測(注意を伴う大規模LSTM)からなるメモリネットワークを構築し,時系列データから時間依存性を捉える。
論文 参考訳(メタデータ) (2021-07-27T06:48:20Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Kernel Two-Dimensional Ridge Regression for Subspace Clustering [45.651770340521786]
本稿では,2次元データに対する新しいサブスペースクラスタリング手法を提案する。
2Dデータを入力として直接使用するので、表現の学習はデータ固有の構造や関係から恩恵を受ける。
論文 参考訳(メタデータ) (2020-11-03T04:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。