論文の概要: Adversarial Subspace Generation for Outlier Detection in High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2504.07522v1
- Date: Thu, 10 Apr 2025 07:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:04.962177
- Title: Adversarial Subspace Generation for Outlier Detection in High-Dimensional Data
- Title(参考訳): 高次元データにおける外乱検出のための逆部分空間生成
- Authors: Jose Cribeiro-Ramallo, Federico Matteucci, Paul Enciu, Alexander Jenke, Vadim Arzamasov, Thorsten Strufe, Klemens Böhm,
- Abstract要約: マルチビュー効果を数学的に定式化する新しい理論フレームワークであるMyopic Subspace Theory (MST)を紹介する。
MSTに基づいて、このような最適化問題を解決するために訓練された生成法であるV-GANを導入する。
42の実世界のデータセットに対する実験により、V-GANの使用は1クラスの分類性能を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 41.09135146101542
- License:
- Abstract: Outlier detection in high-dimensional tabular data is challenging since data is often distributed across multiple lower-dimensional subspaces -- a phenomenon known as the Multiple Views effect (MV). This effect led to a large body of research focused on mining such subspaces, known as subspace selection. However, as the precise nature of the MV effect was not well understood, traditional methods had to rely on heuristic-driven search schemes that struggle to accurately capture the true structure of the data. Properly identifying these subspaces is critical for unsupervised tasks such as outlier detection or clustering, where misrepresenting the underlying data structure can hinder the performance. We introduce Myopic Subspace Theory (MST), a new theoretical framework that mathematically formulates the Multiple Views effect and writes subspace selection as a stochastic optimization problem. Based on MST, we introduce V-GAN, a generative method trained to solve such an optimization problem. This approach avoids any exhaustive search over the feature space while ensuring that the intrinsic data structure is preserved. Experiments on 42 real-world datasets show that using V-GAN subspaces to build ensemble methods leads to a significant increase in one-class classification performance -- compared to existing subspace selection, feature selection, and embedding methods. Further experiments on synthetic data show that V-GAN identifies subspaces more accurately while scaling better than other relevant subspace selection methods. These results confirm the theoretical guarantees of our approach and also highlight its practical viability in high-dimensional settings.
- Abstract(参考訳): データは複数の低次元のサブスペースに分散することが多いため、高次元の表データのアウトレイヤ検出は困難である(MV(Multiple Views effect)として知られる)。
この効果により、サブスペース選択(subspace selection)として知られる、そのようなサブスペースの採掘に焦点をあてた大規模な研究がもたらされた。
しかし、MV効果の正確な性質はよく理解されていなかったため、従来の手法では、データの真の構造を正確に捉えるのに苦労するヒューリスティックな探索スキームに頼らなければならなかった。
これらのサブスペースを適切に識別することは、アウトレイラ検出やクラスタリングのような教師なしのタスクでは重要であり、基盤となるデータ構造を誤って表現することでパフォーマンスを損なう可能性がある。
我々は,Myopic Subspace Theory (MST)を導入し,マルチビュー効果を数学的に定式化し,部分空間選択を確率的最適化問題として記述する。
MSTに基づいて、このような最適化問題を解決するために訓練された生成法であるV-GANを導入する。
このアプローチは、本質的なデータ構造が保存されていることを保証しながら、特徴空間を徹底的に探索することを避ける。
42の実世界のデータセットの実験によると、V-GANサブスペースを使ってアンサンブルメソッドを構築すると、既存のサブスペースの選択、特徴の選択、埋め込みメソッドと比較して、一級分類のパフォーマンスが大幅に向上する。
合成データに関するさらなる実験により、V-GANは、他の関連する部分空間選択法よりも正確にスケーリングしながら、サブ空間を同定することを示した。
これらの結果は,提案手法の理論的保証を確認し,高次元環境下での実用性を強調した。
関連論文リスト
- How Do Flow Matching Models Memorize and Generalize in Sample Data Subspaces? [10.315743300140966]
実世界のデータは、しばしば高次元空間に埋め込まれた低次元構造の中に存在すると仮定される。
実際の設定では、有限個のサンプルのみを観測し、サンプルデータ部分空間と呼ばれるものを形成する。
大きな課題は、生成モデルがこの部分空間内に留まるサンプルを確実に合成できるかどうかである。
論文 参考訳(メタデータ) (2024-10-31T03:08:07Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Learning Structure Aware Deep Spectral Embedding [11.509692423756448]
本稿では, スペクトル埋込み損失と構造保存損失を組み合わせ, 深層スペクトルの埋込みを考慮した新しい構造解析手法を提案する。
両タイプの情報を同時に符号化し,構造認識型スペクトル埋め込みを生成するディープニューラルネットワークアーキテクチャを提案する。
提案アルゴリズムは,公開されている6つの実世界のデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-05-14T18:18:05Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Tensor Laplacian Regularized Low-Rank Representation for Non-uniformly
Distributed Data Subspace Clustering [2.578242050187029]
低ランク表現(LRR)は、サブスペースクラスタリングにおけるデータポイントの局所性情報を破棄する。
本稿では,隣接ノードの変動数を容易にし,データの局所性情報を組み込むハイパーグラフモデルを提案する。
人工および実データを用いた実験により,提案手法の精度と精度が向上した。
論文 参考訳(メタデータ) (2021-03-06T08:22:24Z) - A Critique of Self-Expressive Deep Subspace Clustering [23.971512395191308]
サブスペースクラスタリング(Subspace clustering)は、線形サブスペースの和集合上でサポートされているデータをクラスタリングするために設計された、教師なしクラスタリング技術である。
従来の作業では適切に対処されていなかったこのアプローチには,潜在的な欠陥がいくつかあることを示す。
論文 参考訳(メタデータ) (2020-10-08T00:14:59Z) - Joint and Progressive Subspace Analysis (JPSA) with Spatial-Spectral
Manifold Alignment for Semi-Supervised Hyperspectral Dimensionality Reduction [48.73525876467408]
本稿では,超スペクトル部分空間解析のための新しい手法を提案する。
この手法はジョイント・アンド・プログレッシブ・サブスペース分析(JPSA)と呼ばれる。
2つの広帯域超スペクトルデータセットに対して提案したJPSAの優位性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-09-21T16:29:59Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。