論文の概要: Interpreting the Curse of Dimensionality from Distance Concentration and Manifold Effect
- arxiv url: http://arxiv.org/abs/2401.00422v3
- Date: Thu, 20 Mar 2025 10:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:20.783871
- Title: Interpreting the Curse of Dimensionality from Distance Concentration and Manifold Effect
- Title(参考訳): 距離濃度からの次元曲線の解釈とマニフォールド効果
- Authors: Dehua Peng, Zhipeng Gui, Huayi Wu,
- Abstract要約: まず、高次元データを操作する際の潜在的な課題を要約し、回帰、分類、クラスタリングタスクの失敗の原因を説明する。
次に、理論的および経験的分析を行うことにより、次元性、距離集中、多様体効果の呪いの2つの主要な原因を掘り下げる。
その結果、次元が増加するにつれて、ミンコフスキー距離、チェビシェフ距離、コサイン距離の3つの古典的距離測定を用いた近接探索(NNS)が無意味になることが示された。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License:
- Abstract: The characteristics of data like distribution and heterogeneity, become more complex and counterintuitive as dimensionality increases. This phenomenon is known as curse of dimensionality, where common patterns and relationships (e.g., internal pattern and boundary pattern) that hold in low-dimensional space may be invalid in higher-dimensional space. It leads to a decreasing performance for the regression, classification, or clustering models or algorithms. Curse of dimensionality can be attributed to many causes. In this paper, we first summarize the potential challenges associated with manipulating high-dimensional data, and explains the possible causes for the failure of regression, classification, or clustering tasks. Subsequently, we delve into two major causes of the curse of dimensionality, distance concentration, and manifold effect, by performing theoretical and empirical analyses. The results demonstrate that, as the dimensionality increases, nearest neighbor search (NNS) using three classical distance measurements, Minkowski distance, Chebyshev distance, and cosine distance, becomes meaningless. Meanwhile, the data incorporates more redundant features, and the variance contribution of principal component analysis (PCA) is skewed towards a few dimensions.
- Abstract(参考訳): 分布や不均一性のようなデータの特徴は、次元が増加するにつれてより複雑で直感的になる。
この現象は次元性の呪いとして知られ、低次元空間において保持される共通パターンと関係(例えば、内部パターンと境界パターン)は高次元空間では無効である。
回帰、分類、クラスタリングモデルやアルゴリズムのパフォーマンスが低下する。
次元の曲線は多くの原因に起因する。
本稿ではまず,高次元データの操作に関する潜在的な課題を要約し,回帰,分類,クラスタリングといったタスクの失敗の原因を説明する。
その後、理論的および経験的分析を行うことにより、次元性、距離集中、多様体効果の呪いの2つの主要な原因を掘り下げる。
その結果、次元が増加するにつれて、ミンコフスキー距離、チェビシェフ距離、コサイン距離の3つの古典的距離測定を用いた近接探索(NNS)が無意味になることが示された。
一方、データにはより冗長な特徴が組み込まれており、主成分分析(PCA)の分散寄与は数次元に歪められている。
関連論文リスト
- Networks with Finite VC Dimension: Pro and Contra [1.0128808054306184]
有限VC次元は経験的誤差の一様収束には望ましいが、確率分布から引き出された関数の近似は、それらが与えられた種類のアプリケーションで起こる可能性のモデル化には向いていないことが示されている。
データからの学習における近似の精度と一貫性のトレードオフ、ReLUユニットによるネットワークの深さが精度と一貫性に与える影響について論じる。
論文 参考訳(メタデータ) (2025-02-04T19:44:14Z) - A dimensionality reduction technique based on the Gromov-Wasserstein distance [7.8772082926712415]
本稿では, 最適輸送理論とGromov-Wasserstein距離に基づく次元減少法を提案する。
提案手法は,高次元データを低次元空間に埋め込み,複雑な高次元データセットを解析するための堅牢で効率的な解を提供する。
論文 参考訳(メタデータ) (2025-01-23T15:05:51Z) - Exploring the Meaningfulness of Nearest Neighbor Search in High-Dimensional Space [11.006299554632461]
コンピュータビジョン、機械学習、大規模言語モデル(LLM)などの分野において「高次元ベクトル」がますます重要になっている。
これらの高次元ベクトルに対して最も近い近接探索(NNS)にもかかわらず、検索拡張生成(RAG)やその他の多くの用途に広く用いられている。
本研究は,埋め込み型データ表現法の有効性を示し,高密度ベクトル関連アプリケーションのさらなる最適化の機会を提供する。
論文 参考訳(メタデータ) (2024-10-08T07:28:17Z) - StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Surpassing Cosine Similarity for Multidimensional Comparisons: Dimension Insensitive Euclidean Metric (DIEM) [4.415977307120617]
次元不感なユークリッド計量(DIEM)を導入し, 寸法間の強靭性と一般化性を示す。
DIEMは、一貫した変動性を維持し、従来のメトリクスで観測されたバイアスを排除し、高次元比較のための信頼できるツールとなる。
この新しい計量はコサインの類似性を置き換える可能性を秘めており、神経運動制御から機械学習、深層学習に至るまでの分野における多次元データをより正確で洞察に富んだ分析方法を提供する。
論文 参考訳(メタデータ) (2024-07-11T16:00:22Z) - Enhancing Dimension-Reduced Scatter Plots with Class and Feature Centroids [0.0]
データセットが2次元に縮小されると、各観測は x と y の座標に割り当てられ、散乱プロット上の点として表される。
重要な課題は、次元減少に固有の複雑さのため、x と y の軸の意味を解釈することである。
本研究は, 次元減少から導出されるx, y座標を用いて, 散乱プロット上にオーバーレイ可能なクラスおよび特徴セントロイドを計算することで, この課題に対処する。
論文 参考訳(メタデータ) (2024-03-29T15:45:25Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Scaling Riemannian Diffusion Models [68.52820280448991]
非自明な多様体上の高次元タスクにスケールできることを示す。
我々は、$SU(n)$格子上のQCD密度と高次元超球面上の対照的に学習された埋め込みをモデル化する。
論文 参考訳(メタデータ) (2023-10-30T21:27:53Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Multi-point dimensionality reduction to improve projection layout
reliability [77.34726150561087]
通常の次元還元(dr)では、m-次元空間(原空間)の各データインスタンスは、d-次元空間(視覚空間)内の一点にマッピングされる。
当社のソリューションであるRed Gray Plusは、通常のDRとグラフ描画技術を組み合わせて構築され、拡張されています。
論文 参考訳(メタデータ) (2021-01-15T17:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。