論文の概要: Beyond the noise: intrinsic dimension estimation with optimal neighbourhood identification
- arxiv url: http://arxiv.org/abs/2405.15132v1
- Date: Fri, 24 May 2024 01:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:28:28.291533
- Title: Beyond the noise: intrinsic dimension estimation with optimal neighbourhood identification
- Title(参考訳): 雑音の向こう側:最適近傍同定による固有次元推定
- Authors: Antonio Di Noia, Iuri Macocco, Aldo Glielmo, Alessandro Laio, Antonietta Mira,
- Abstract要約: 内在次元(ID)は教師なし学習と特徴選択における鍵となる概念である。
現実世界のほとんどのデータセットでは、IDはデータが分析されるスケールに依存する。
提案手法では,スイーツスポットを選択するための自動プロトコル,すなわち,IDが有意義で有用である範囲を適切に選択する。
- 参考スコア(独自算出の注目度): 43.26660964074272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Intrinsic Dimension (ID) is a key concept in unsupervised learning and feature selection, as it is a lower bound to the number of variables which are necessary to describe a system. However, in almost any real-world dataset the ID depends on the scale at which the data are analysed. Quite typically at a small scale, the ID is very large, as the data are affected by measurement errors. At large scale, the ID can also be erroneously large, due to the curvature and the topology of the manifold containing the data. In this work, we introduce an automatic protocol to select the sweet spot, namely the correct range of scales in which the ID is meaningful and useful. This protocol is based on imposing that for distances smaller than the correct scale the density of the data is constant. Since to estimate the density it is necessary to know the ID, this condition is imposed self-consistently. We illustrate the usefulness and robustness of this procedure by benchmarks on artificial and real-world datasets.
- Abstract(参考訳): 固有次元(Intrinsic Dimension、ID)は、教師なし学習と特徴選択において重要な概念であり、システムを記述するのに必要な変数の数に対する低い境界である。
しかし、ほとんどの実世界のデータセットでは、IDはデータが分析されるスケールに依存する。
通常、小さなスケールでは、データは測定エラーによって影響を受けるため、IDは非常に大きい。
大規模では、そのデータを含む多様体の曲率と位相のために、IDが誤って大きいこともある。
そこで本研究では,提案するスイーツスポットを選択するための自動プロトコル,すなわち,IDが有意義で有用なスケールの範囲を自動で選択する手法を提案する。
このプロトコルは、正しいスケールよりも小さい距離に対して、データの密度が一定であることを示すものである。
密度を推定するにはIDを知る必要があるため、この条件は自己整合的に課される。
人工および実世界のデータセットのベンチマークにより,この手法の有用性とロバスト性について述べる。
関連論文リスト
- Simple and Effective Augmentation Methods for CSI Based Indoor
Localization [37.3026733673066]
物理的考察により,チャネル状態情報に基づく屋内位置推定のための2つのアルゴリズムを提案する。
オリジナルのデータセットのサイズの10%は、オリジナルのデータセットと同じパフォーマンスを得るのに十分です。
提案手法によりさらにデータセットを増大させると、テスト精度は3倍以上に向上する。
論文 参考訳(メタデータ) (2022-11-19T20:27:46Z) - Intrinsic Dimensionality Estimation within Tight Localities: A
Theoretical and Experimental Analysis [0.0]
そこで本研究では,20個のサンプル点からなるタイトな局所性に対しても安定な局所ID推定手法を提案する。
実験結果から,提案手法の偏差は比較的小さいが, 偏差は比較的小さく, 試料径は最先端の推定値よりもはるかに小さいことがわかった。
論文 参考訳(メタデータ) (2022-09-29T00:00:11Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - No Shifted Augmentations (NSA): compact distributions for robust
self-supervised Anomaly Detection [4.243926243206826]
教師なし異常検出(AD)は正規化の概念を構築し、分布内(ID)と分布外(OOD)データを区別する必要がある。
我々は,ID特徴分布のエンフ幾何学的コンパクト性によって,外乱の分離や検出が容易になるかを検討する。
我々は,IDデータのコンパクトな分布を学習可能にする自己教師型特徴学習ステップに,新たなアーキテクチャ変更を提案する。
論文 参考訳(メタデータ) (2022-03-19T15:55:32Z) - Featurized Density Ratio Estimation [82.40706152910292]
本研究では,2つの分布を推定前の共通特徴空間にマッピングするために,可逆生成モデルを活用することを提案する。
この偉業化は、学習された入力空間の密度比が任意に不正確な場合、潜在空間において密度が密接な関係をもたらす。
同時に、特徴写像の可逆性は、特徴空間で計算された比が入力空間で計算された比と同値であることを保証する。
論文 参考訳(メタデータ) (2021-07-05T18:30:26Z) - Improving Face Recognition by Clustering Unlabeled Faces in the Wild [77.48677160252198]
極値理論に基づく新しいアイデンティティ分離法を提案する。
重なり合うラベルノイズによる問題を大幅に低減する。
制御された設定と実際の設定の両方の実験は、我々のメソッドの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2020-07-14T12:26:50Z) - Variable Skipping for Autoregressive Range Density Estimation [84.60428050170687]
深部自己回帰モデルを用いた距離密度推定を高速化する手法である可変スキップについて述べる。
可変スキップは、10-100$timesの効率向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-10T19:01:40Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z) - Local intrinsic dimensionality estimators based on concentration of
measure [0.0]
固有次元性(ID)は多次元データポイント雲の最も基本的な特徴の1つである。
多次元データポイント雲の線形分離性に基づくIDの新しい局所推定手法を提案する。
論文 参考訳(メタデータ) (2020-01-31T09:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。