論文の概要: A geometric framework for outlier detection in high-dimensional data
- arxiv url: http://arxiv.org/abs/2207.00367v1
- Date: Fri, 1 Jul 2022 12:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 18:52:23.707424
- Title: A geometric framework for outlier detection in high-dimensional data
- Title(参考訳): 高次元データにおける異常検出のための幾何学的枠組み
- Authors: Moritz Herrmann, Florian Pfisterer, Fabian Scheipl
- Abstract要約: 異常検出はデータ分析において重要な課題である。
データセットのメトリック構造を利用するフレームワークを提供する。
この構造を利用することで,高次元データにおける外部観測の検出が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outlier or anomaly detection is an important task in data analysis. We
discuss the problem from a geometrical perspective and provide a framework that
exploits the metric structure of a data set. Our approach rests on the manifold
assumption, i.e., that the observed, nominally high-dimensional data lie on a
much lower dimensional manifold and that this intrinsic structure can be
inferred with manifold learning methods. We show that exploiting this structure
significantly improves the detection of outlying observations in
high-dimensional data. We also suggest a novel, mathematically precise, and
widely applicable distinction between distributional and structural outliers
based on the geometry and topology of the data manifold that clarifies
conceptual ambiguities prevalent throughout the literature. Our experiments
focus on functional data as one class of structured high-dimensional data, but
the framework we propose is completely general and we include image and graph
data applications. Our results show that the outlier structure of
high-dimensional and non-tabular data can be detected and visualized using
manifold learning methods and quantified using standard outlier scoring methods
applied to the manifold embedding vectors.
- Abstract(参考訳): 異常検出はデータ分析において重要な課題である。
幾何学的観点から問題を議論し、データセットのメートル法構造を利用するフレームワークを提供する。
我々のアプローチは、観測された高次元データは、非常に低い次元の多様体の上にあり、本質的な構造は多様体学習法で推測できるという多様体の仮定に基づいている。
この構造の活用は,高次元データにおける外部観測の検出を著しく改善することを示す。
また,データ多様体の幾何学的およびトポロジーに基づく分布的および構造的外れ値の,新しい,数学的に正確かつ広く適用可能な区別法を提案する。
実験では,構造化高次元データの一クラスとして機能的データに焦点を当てるが,提案するフレームワークは完全に汎用的であり,画像およびグラフデータアプリケーションも含む。
この結果から,高次元および非タブラルデータの外層構造を多様体学習法を用いて検出・可視化し,標準外層評価法を用いて定量化できることが示唆された。
関連論文リスト
- Dissecting embedding method: learning higher-order structures from data [0.0]
データ学習のための幾何学的深層学習法は、しばしば特徴空間の幾何学に関する仮定のセットを含む。
これらの仮定と、データが離散的で有限であるという仮定は、いくつかの一般化を引き起こし、データとモデルの出力の間違った解釈を生み出す可能性がある。
論文 参考訳(メタデータ) (2024-10-14T08:19:39Z) - Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文 参考訳(メタデータ) (2024-07-01T18:48:55Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - Study of Manifold Geometry using Multiscale Non-Negative Kernel Graphs [32.40622753355266]
データの幾何学的構造を研究するための枠組みを提案する。
我々は最近導入された非負のカーネル回帰グラフを用いて、点密度、固有次元、およびデータ多様体(曲率)の線型性を推定する。
論文 参考訳(メタデータ) (2022-10-31T17:01:17Z) - Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet
Transmission Spectra [68.8204255655161]
我々は、通過する太陽系外惑星のスペクトルデータを解析するための教師なし手法に焦点をあてる。
スペクトルデータには、適切な低次元表現を要求する高い相関関係があることが示される。
主成分に基づく興味深い構造、すなわち、異なる化学状態に対応する明確に定義された分岐を明らかにする。
論文 参考訳(メタデータ) (2022-01-07T22:26:33Z) - A geometric perspective on functional outlier detection [0.0]
これまでに提案したよりも広く適用可能で現実的な機能外乱検出の概念を考案する。
本研究では,関数型データセットの幾何学的構造を確実に推論し,可視化するために,単純な多様体学習法が利用できることを示す。
合成および実データ集合に関する実験により、本手法は、少なくとも既存の関数型データ固有手法と同程度に、外乱検出性能をもたらすことを示した。
論文 参考訳(メタデータ) (2021-09-14T17:42:57Z) - Joint Geometric and Topological Analysis of Hierarchical Datasets [7.098759778181621]
本稿では,複数の階層的データセットに整理された高次元データに注目する。
この研究の主な新規性は、トポロジカルデータ分析と幾何多様体学習という、2つの強力なデータ分析アプローチの組み合わせにある。
本手法は, 最新手法と比較して優れた分類結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-03T13:02:00Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Manifold Learning via Manifold Deflation [105.7418091051558]
次元削減法は、高次元データの可視化と解釈に有用な手段を提供する。
多くの一般的な手法は単純な2次元のマニフォールドでも劇的に失敗する。
本稿では,グローバルな構造を座標として組み込んだ,新しいインクリメンタルな空間推定器の埋め込み手法を提案する。
実験により,本アルゴリズムは実世界および合成データセットに新規で興味深い埋め込みを復元することを示した。
論文 参考訳(メタデータ) (2020-07-07T10:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。