論文の概要: Intrinsic Dimensionality Estimation within Tight Localities: A
Theoretical and Experimental Analysis
- arxiv url: http://arxiv.org/abs/2209.14475v1
- Date: Thu, 29 Sep 2022 00:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 15:52:53.455387
- Title: Intrinsic Dimensionality Estimation within Tight Localities: A
Theoretical and Experimental Analysis
- Title(参考訳): 密集地における固有次元推定:理論的および実験的解析
- Authors: Laurent Amsaleg (CNRS-IRISA, France), Oussama Chelly (Amazon Web
Services, Munich, Germany), Michael E. Houle (The University of Melbourne,
Australia), Ken-ichi Kawarabayashi (National Institute of Informatics,
Japan), Milo\v{s} Radovanovi\'c (University of Novi Sad, Serbia), Weeris
Treeratanajaru (Bank of Thailand)
- Abstract要約: そこで本研究では,20個のサンプル点からなるタイトな局所性に対しても安定な局所ID推定手法を提案する。
実験結果から,提案手法の偏差は比較的小さいが, 偏差は比較的小さく, 試料径は最先端の推定値よりもはるかに小さいことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate estimation of Intrinsic Dimensionality (ID) is of crucial importance
in many data mining and machine learning tasks, including dimensionality
reduction, outlier detection, similarity search and subspace clustering.
However, since their convergence generally requires sample sizes (that is,
neighborhood sizes) on the order of hundreds of points, existing ID estimation
methods may have only limited usefulness for applications in which the data
consists of many natural groups of small size. In this paper, we propose a
local ID estimation strategy stable even for `tight' localities consisting of
as few as 20 sample points. The estimator applies MLE techniques over all
available pairwise distances among the members of the sample, based on a recent
extreme-value-theoretic model of intrinsic dimensionality, the Local Intrinsic
Dimension (LID). Our experimental results show that our proposed estimation
technique can achieve notably smaller variance, while maintaining comparable
levels of bias, at much smaller sample sizes than state-of-the-art estimators.
- Abstract(参考訳): 内在次元(ID)の正確な推定は、次元減少、外乱検出、類似性探索、サブスペースクラスタリングを含む多くのデータマイニングや機械学習タスクにおいて重要である。
しかし、それらの収束は一般に数百点のオーダーでサンプルサイズ(すなわち近傍サイズ)を必要とするため、既存のid推定手法は、データのサイズが小さい多くの自然群からなるアプリケーションでのみ有用である。
本稿では,20個のサンプル点からなる'tight'の局所性に対しても安定な局所ID推定手法を提案する。
この推定器は、最近発表された固有次元の極値-理論モデルである局所固有次元(LID)に基づいて、サンプル中の任意のペア距離にMLE技術を適用する。
実験結果から,提案手法は,最先端の推定値よりもずっと小さいサンプルサイズで,バイアスレベルを保ちながら,著しくばらつきを低減できることがわかった。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Dimensionality-Aware Outlier Detection: Theoretical and Experimental Analysis [9.962838991341874]
本稿では,データセット内の次元の局所的変動をフルに考慮した非パラメトリックな外乱検出手法を提案する。
提案手法は,3つの重要なベンチマーク・アウトレイラ検出手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-10T01:07:35Z) - Robust Bayesian Subspace Identification for Small Data Sets [91.3755431537592]
分散効果を低減するため,正規化推定器,縮小推定器,ベイズ推定器を提案する。
実験の結果,提案した推定器は従来の部分空間法よりも40%のコストで推定リスクを低減できることがわかった。
論文 参考訳(メタデータ) (2022-12-29T00:29:04Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Supervised Multivariate Learning with Simultaneous Feature Auto-grouping
and Dimension Reduction [7.093830786026851]
本稿では,クラスタ化低ランク学習フレームワークを提案する。
2つの合同行列正則化を課し、予測因子を構成する特徴を自動的にグループ化する。
低ランクなモデリングよりも解釈可能であり、変数選択における厳密な空間性仮定を緩和する。
論文 参考訳(メタデータ) (2021-12-17T20:11:20Z) - Local Intrinsic Dimensionality Signals Adversarial Perturbations [28.328973408891834]
局所次元(Local dimensionality, LID)は、各データポイントを記述するのに必要な潜伏変数の最小数を記述する局所計量である。
本稿では、摂動データポイントのLID値に対する下界と上界を導出し、特に下界は摂動の大きさと正の相関を持つことを示す。
論文 参考訳(メタデータ) (2021-09-24T08:29:50Z) - Featurized Density Ratio Estimation [82.40706152910292]
本研究では,2つの分布を推定前の共通特徴空間にマッピングするために,可逆生成モデルを活用することを提案する。
この偉業化は、学習された入力空間の密度比が任意に不正確な場合、潜在空間において密度が密接な関係をもたらす。
同時に、特徴写像の可逆性は、特徴空間で計算された比が入力空間で計算された比と同値であることを保証する。
論文 参考訳(メタデータ) (2021-07-05T18:30:26Z) - Meta-Learning for Relative Density-Ratio Estimation [59.75321498170363]
相対密度比推定(DRE)の既存の方法は、両方の密度から多くのインスタンスを必要とする。
本稿では,関係データセットの知識を用いて,相対密度比を数例から推定する,相対DREのメタラーニング手法を提案する。
提案手法の有効性を,相対的DRE,データセット比較,外乱検出の3つの問題を用いて実証的に実証した。
論文 参考訳(メタデータ) (2021-07-02T02:13:45Z) - Intrinsic Dimension Estimation [92.87600241234344]
内在次元の新しい推定器を導入し, 有限標本, 非漸近保証を提供する。
次に、本手法を適用して、データ固有の次元に依存するGAN(Generative Adversarial Networks)に対する新しいサンプル複雑性境界を求める。
論文 参考訳(メタデータ) (2021-06-08T00:05:39Z) - Local intrinsic dimensionality estimators based on concentration of
measure [0.0]
固有次元性(ID)は多次元データポイント雲の最も基本的な特徴の1つである。
多次元データポイント雲の線形分離性に基づくIDの新しい局所推定手法を提案する。
論文 参考訳(メタデータ) (2020-01-31T09:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。