論文の概要: A Survey of Dimension Estimation Methods
- arxiv url: http://arxiv.org/abs/2507.13887v1
- Date: Fri, 18 Jul 2025 13:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.291892
- Title: A Survey of Dimension Estimation Methods
- Title(参考訳): 次元推定法の検討
- Authors: James A. D. Binnie, Paweł Dłotko, John Harvey, Jakub Malinowski, Ka Man Yim,
- Abstract要約: データの実際の次元を理解することは重要である。
本調査では, 様々な次元推定手法を概観し, 利用した幾何学的情報を用いて分類する。
本研究は, 曲率, 騒音に対する各種応答の検討とともに, これらの手法の性能評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is a standard assumption that datasets in high dimension have an internal structure which means that they in fact lie on, or near, subsets of a lower dimension. In many instances it is important to understand the real dimension of the data, hence the complexity of the dataset at hand. A great variety of dimension estimators have been developed to find the intrinsic dimension of the data but there is little guidance on how to reliably use these estimators. This survey reviews a wide range of dimension estimation methods, categorising them by the geometric information they exploit: tangential estimators which detect a local affine structure; parametric estimators which rely on dimension-dependent probability distributions; and estimators which use topological or metric invariants. The paper evaluates the performance of these methods, as well as investigating varying responses to curvature and noise. Key issues addressed include robustness to hyperparameter selection, sample size requirements, accuracy in high dimensions, precision, and performance on non-linear geometries. In identifying the best hyperparameters for benchmark datasets, overfitting is frequent, indicating that many estimators may not generalise well beyond the datasets on which they have been tested.
- Abstract(参考訳): これは、高次元のデータセットが内部構造を持つという標準的な仮定であり、それは実際には、低い次元のサブセットの上に、あるいは近くにあることを意味する。
多くのケースでは、データの実次元を理解することが重要です。
データの本質的な次元を見つけるために様々な次元推定器が開発されているが、これらの推定器を確実に利用する方法についてはほとんどガイダンスがない。
本調査では, 局所アフィン構造を検出する接線推定器, 次元依存性の確率分布に依存するパラメトリック推定器, トポロジカルあるいは計量不変量を利用する測度推定器について検討した。
本研究は, 曲率, 騒音に対する各種応答の検討とともに, これらの手法の性能評価を行う。
主な課題は、ハイパーパラメータ選択に対する堅牢性、サンプルサイズ要求、高次元の精度、精度、非線形ジオメトリのパフォーマンスなどである。
ベンチマークデータセットに最適なハイパーパラメータを特定する際には、オーバーフィッティングが頻繁に行われ、多くの推定器がテスト対象のデータセットをはるかに越えて一般化しない可能性があることを示している。
関連論文リスト
- (Deep) Generative Geodesics [57.635187092922976]
2つのデータポイント間の類似性を評価するために,新しい測定基準を導入する。
我々の計量は、生成距離と生成測地学の概念的定義に繋がる。
彼らの近似は、穏やかな条件下で真の値に収束することが証明されている。
論文 参考訳(メタデータ) (2024-07-15T21:14:02Z) - Adversarial Estimation of Topological Dimension with Harmonic Score Maps [7.34158170612151]
スコアマップで学習した多様体の位相次元を復元することは可能であることを示す。
次に、逆攻撃を用いて学習した多様体の位相次元を測定する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:29:54Z) - An evaluation framework for dimensionality reduction through sectional
curvature [59.40521061783166]
本研究は,非教師付き次元減少性能指標を初めて導入することを目的としている。
その実現可能性をテストするために、この測定基準は最もよく使われる次元削減アルゴリズムの性能を評価するために用いられている。
新しいパラメータ化問題インスタンスジェネレータが関数ジェネレータの形式で構築されている。
論文 参考訳(メタデータ) (2023-03-17T11:59:33Z) - Intrinsic Dimensionality Estimation within Tight Localities: A
Theoretical and Experimental Analysis [0.0]
そこで本研究では,20個のサンプル点からなるタイトな局所性に対しても安定な局所ID推定手法を提案する。
実験結果から,提案手法の偏差は比較的小さいが, 偏差は比較的小さく, 試料径は最先端の推定値よりもはるかに小さいことがわかった。
論文 参考訳(メタデータ) (2022-09-29T00:00:11Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - A geometric framework for outlier detection in high-dimensional data [0.0]
異常検出はデータ分析において重要な課題である。
データセットのメトリック構造を利用するフレームワークを提供する。
この構造を利用することで,高次元データにおける外部観測の検出が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-07-01T12:07:51Z) - Semi-Supervised Quantile Estimation: Robust and Efficient Inference in High Dimensional Settings [0.5735035463793009]
2つの利用可能なデータセットを特徴とする半教師付き環境での量子推定を考察する。
本稿では,2つのデータセットに基づいて,応答量子化(s)に対する半教師付き推定器群を提案する。
論文 参考訳(メタデータ) (2022-01-25T10:02:23Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel
Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。
重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。
我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文 参考訳(メタデータ) (2019-12-30T09:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。