論文の概要: Interpreting the Curse of Dimensionality from Distance Concentration and
Manifold Effect
- arxiv url: http://arxiv.org/abs/2401.00422v2
- Date: Sun, 7 Jan 2024 14:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:37:52.579464
- Title: Interpreting the Curse of Dimensionality from Distance Concentration and
Manifold Effect
- Title(参考訳): 距離集中と多様体効果による次元の呪いの解釈
- Authors: Dehua Peng, Zhipeng Gui, Huayi Wu
- Abstract要約: まず,高次元データの操作に関する5つの課題を要約する。
次に、次元、距離集中、多様体効果の呪いの2つの主要な原因を掘り下げる。
次元の呪いの原因を解釈することで、現在のモデルやアルゴリズムの限界をよりよく理解することができる。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The characteristics of data like distribution and heterogeneity, become more
complex and counterintuitive as the dimensionality increases. This phenomenon
is known as curse of dimensionality, where common patterns and relationships
(e.g., internal and boundary pattern) that hold in low-dimensional space may be
invalid in higher-dimensional space. It leads to a decreasing performance for
the regression, classification or clustering models or algorithms. Curse of
dimensionality can be attributed to many causes. In this paper, we first
summarize five challenges associated with manipulating high-dimensional data,
and explains the potential causes for the failure of regression, classification
or clustering tasks. Subsequently, we delve into two major causes of the curse
of dimensionality, distance concentration and manifold effect, by performing
theoretical and empirical analyses. The results demonstrate that nearest
neighbor search (NNS) using three typical distance measurements, Minkowski
distance, Chebyshev distance, and cosine distance, becomes meaningless as the
dimensionality increases. Meanwhile, the data incorporates more redundant
features, and the variance contribution of principal component analysis (PCA)
is skewed towards a few dimensions. By interpreting the causes of the curse of
dimensionality, we can better understand the limitations of current models and
algorithms, and drive to improve the performance of data analysis and machine
learning tasks in high-dimensional space.
- Abstract(参考訳): 分布や異質性といったデータの特性は、次元が増加するにつれて複雑で直観に反するものになる。
この現象は次元の呪い(curse of dimensionality)と呼ばれ、低次元空間に持つ共通のパターンや関係(内部パターンや境界パターンなど)は高次元空間では無効となる。
これにより、回帰、分類、クラスタリングモデルやアルゴリズムのパフォーマンスが低下する。
次元の呪いは多くの原因によって引き起こされる。
本稿ではまず,高次元データの操作に関わる5つの課題を要約し,回帰,分類,クラスタリングタスクの失敗の原因について説明する。
次に, 次元の呪い, 距離集中, 多様体効果の2つの主な原因を理論的, 経験的分析によって考察する。
その結果,3つの典型的な距離,ミンコフスキー距離,チェビシェフ距離,コサイン距離を用いた近接探索(NNS)は次元が増加するにつれて意味がなくなることがわかった。
一方、データにはより冗長な特徴が組み込まれており、主成分分析(PCA)の分散寄与は数次元に歪められている。
次元の呪いの原因を解釈することで、現在のモデルやアルゴリズムの限界をよりよく理解し、高次元空間におけるデータ解析や機械学習タスクの性能を向上させることができる。
関連論文リスト
- Scaling Riemannian Diffusion Models [68.52820280448991]
非自明な多様体上の高次元タスクにスケールできることを示す。
我々は、$SU(n)$格子上のQCD密度と高次元超球面上の対照的に学習された埋め込みをモデル化する。
論文 参考訳(メタデータ) (2023-10-30T21:27:53Z) - Interpretable Linear Dimensionality Reduction based on Bias-Variance
Analysis [45.3190496371625]
本稿では,特徴の解釈可能性を維持するための基本次元削減手法を提案する。
このように、全ての特徴を考慮し、次元性を減らし、解釈可能性を保持する。
論文 参考訳(メタデータ) (2023-03-26T14:30:38Z) - In search of the most efficient and memory-saving visualization of high
dimensional data [0.0]
多次元データの可視化は、非次元近傍グラフの2方向埋め込みをよく近似していると論じる。
既存のリダクション手法は遅すぎるため、インタラクティブな操作ができない。
高品質な埋め込みは、最小限の時間とメモリの複雑さで生成されることを示す。
論文 参考訳(メタデータ) (2023-02-27T20:56:13Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - Estimating Divergences in High Dimensions [6.172809837529207]
本研究では,高次元データにおける分散度推定のための分解可能なモデルを提案する。
これにより、高次元分布の推定密度を低次元関数の積に分解することができる。
最大極大推定器から分解可能なモデルを用いてクルバック・リーブラーの発散を推定すると,既存の発散推定法よりも優れることを示す。
論文 参考訳(メタデータ) (2021-12-08T20:37:28Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Multi-point dimensionality reduction to improve projection layout
reliability [77.34726150561087]
通常の次元還元(dr)では、m-次元空間(原空間)の各データインスタンスは、d-次元空間(視覚空間)内の一点にマッピングされる。
当社のソリューションであるRed Gray Plusは、通常のDRとグラフ描画技術を組み合わせて構築され、拡張されています。
論文 参考訳(メタデータ) (2021-01-15T17:17:02Z) - ABID: Angle Based Intrinsic Dimensionality [0.0]
内在的な次元性は、データ表現の次元性とは対照的に、データの真の次元性を指す。
局所固有次元を推定するための最も一般的な方法は距離に基づく。
角度の理論的分布を導出し、これを用いて固有次元の推定器を構築する。
論文 参考訳(メタデータ) (2020-06-23T10:19:34Z) - Unsupervised Discretization by Two-dimensional MDL-based Histogram [0.0]
教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。
本稿では,2次元データのより柔軟な分割を可能にする表現型モデルクラスを提案する。
本稿では,各次元を交互に分割し,隣接する領域をマージするPALMというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T19:19:49Z) - Cylindrical Convolutional Networks for Joint Object Detection and
Viewpoint Estimation [76.21696417873311]
3次元空間で定義された畳み込みカーネルの円筒形表現を利用する学習可能なモジュールである円筒型畳み込みネットワーク(CCN)を導入する。
CCNはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点におけるオブジェクトカテゴリスコアを予測する。
本実験は,円柱状畳み込みネットワークが関節物体の検出と視点推定に与える影響を実証する。
論文 参考訳(メタデータ) (2020-03-25T10:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。