論文の概要: Intrinsic dimension estimation for discrete metrics
- arxiv url: http://arxiv.org/abs/2207.09688v1
- Date: Wed, 20 Jul 2022 06:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:10:33.571610
- Title: Intrinsic dimension estimation for discrete metrics
- Title(参考訳): 離散計量における内在次元推定
- Authors: Iuri Macocco, Aldo Glielmo, Jacopo Grilli and Alessandro Laio
- Abstract要約: 本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
- 参考スコア(独自算出の注目度): 65.5438227932088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real world-datasets characterized by discrete features are ubiquitous: from
categorical surveys to clinical questionnaires, from unweighted networks to DNA
sequences. Nevertheless, the most common unsupervised dimensional reduction
methods are designed for continuous spaces, and their use for discrete spaces
can lead to errors and biases. In this letter we introduce an algorithm to
infer the intrinsic dimension (ID) of datasets embedded in discrete spaces. We
demonstrate its accuracy on benchmark datasets, and we apply it to analyze a
metagenomic dataset for species fingerprinting, finding a surprisingly small
ID, of order 2. This suggests that evolutive pressure acts on a low-dimensional
manifold despite the high-dimensionality of sequences' space.
- Abstract(参考訳): 離散的な特徴を特徴とする実世界データセットは、カテゴリー調査から臨床アンケート、未重み付きネットワークからDNA配列まで、どこにでもある。
しかしながら、最も一般的な教師なし次元還元法は連続空間のために設計されており、離散空間に対するそれらの使用は誤りやバイアスを引き起こす可能性がある。
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
ベンチマークデータセット上でその精度を実証し,種鑑定のためのメダゲノミクスデータセットの解析に応用し,驚くほど小さなIDを2。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
関連論文リスト
- $\Gamma$-VAE: Curvature regularized variational autoencoders for
uncovering emergent low dimensional geometric structure in high dimensional
data [0.25128687379089687]
創発的な振る舞いを持つ自然系は、しばしば高次元空間の低次元部分集合に沿って構成される。
生成モデルの曲率を正規化することで、より一貫性があり、予測可能で、一般化可能なモデルを実現できることを示す。
論文 参考訳(メタデータ) (2024-03-02T03:26:09Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Random Smoothing Regularization in Kernel Gradient Descent Learning [24.383121157277007]
古典的ソボレフ空間に属する幅広い基底真理関数を適応的に学習できるランダムなスムーズな正規化のための枠組みを提案する。
我々の推定器は、基礎となるデータの構造的仮定に適応し、次元の呪いを避けることができる。
論文 参考訳(メタデータ) (2023-05-05T13:37:34Z) - Topological Singularity Detection at Multiple Scales [11.396560798899413]
実世界のデータは、間違った発見につながる可能性のある異なる非次元構造を示す。
本研究では,局所固有次元を定量化し,複数の尺度に沿った点の「多様体性」を評価するためのユークリディシティスコアを得る枠組みを開発する。
本手法は複素空間の特異点を同定すると同時に,画像データの特異構造と局所的幾何学的複雑さを捉える。
論文 参考訳(メタデータ) (2022-09-30T20:00:32Z) - Analyzing the Latent Space of GAN through Local Dimension Estimation [4.688163910878411]
高忠実度画像合成におけるスタイルベースGAN(StyleGAN)は、それらの潜在空間の意味的特性を理解するために研究の動機となっている。
事前学習したGANモデルにおける任意の中間層に対する局所次元推定アルゴリズムを提案する。
提案した計量はDistortionと呼ばれ、学習された潜在空間上の内在空間の不整合を測定する。
論文 参考訳(メタデータ) (2022-05-26T06:36:06Z) - Intrinsic Dimension Estimation [92.87600241234344]
内在次元の新しい推定器を導入し, 有限標本, 非漸近保証を提供する。
次に、本手法を適用して、データ固有の次元に依存するGAN(Generative Adversarial Networks)に対する新しいサンプル複雑性境界を求める。
論文 参考訳(メタデータ) (2021-06-08T00:05:39Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Manifold Learning via Manifold Deflation [105.7418091051558]
次元削減法は、高次元データの可視化と解釈に有用な手段を提供する。
多くの一般的な手法は単純な2次元のマニフォールドでも劇的に失敗する。
本稿では,グローバルな構造を座標として組み込んだ,新しいインクリメンタルな空間推定器の埋め込み手法を提案する。
実験により,本アルゴリズムは実世界および合成データセットに新規で興味深い埋め込みを復元することを示した。
論文 参考訳(メタデータ) (2020-07-07T10:04:28Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。