論文の概要: Interpreting the Curse of Dimensionality from Distance Concentration and
Manifold Effect
- arxiv url: http://arxiv.org/abs/2401.00422v2
- Date: Sun, 7 Jan 2024 14:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:37:52.579464
- Title: Interpreting the Curse of Dimensionality from Distance Concentration and
Manifold Effect
- Title(参考訳): 距離集中と多様体効果による次元の呪いの解釈
- Authors: Dehua Peng, Zhipeng Gui, Huayi Wu
- Abstract要約: まず,高次元データの操作に関する5つの課題を要約する。
次に、次元、距離集中、多様体効果の呪いの2つの主要な原因を掘り下げる。
次元の呪いの原因を解釈することで、現在のモデルやアルゴリズムの限界をよりよく理解することができる。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The characteristics of data like distribution and heterogeneity, become more
complex and counterintuitive as the dimensionality increases. This phenomenon
is known as curse of dimensionality, where common patterns and relationships
(e.g., internal and boundary pattern) that hold in low-dimensional space may be
invalid in higher-dimensional space. It leads to a decreasing performance for
the regression, classification or clustering models or algorithms. Curse of
dimensionality can be attributed to many causes. In this paper, we first
summarize five challenges associated with manipulating high-dimensional data,
and explains the potential causes for the failure of regression, classification
or clustering tasks. Subsequently, we delve into two major causes of the curse
of dimensionality, distance concentration and manifold effect, by performing
theoretical and empirical analyses. The results demonstrate that nearest
neighbor search (NNS) using three typical distance measurements, Minkowski
distance, Chebyshev distance, and cosine distance, becomes meaningless as the
dimensionality increases. Meanwhile, the data incorporates more redundant
features, and the variance contribution of principal component analysis (PCA)
is skewed towards a few dimensions. By interpreting the causes of the curse of
dimensionality, we can better understand the limitations of current models and
algorithms, and drive to improve the performance of data analysis and machine
learning tasks in high-dimensional space.
- Abstract(参考訳): 分布や異質性といったデータの特性は、次元が増加するにつれて複雑で直観に反するものになる。
この現象は次元の呪い(curse of dimensionality)と呼ばれ、低次元空間に持つ共通のパターンや関係(内部パターンや境界パターンなど)は高次元空間では無効となる。
これにより、回帰、分類、クラスタリングモデルやアルゴリズムのパフォーマンスが低下する。
次元の呪いは多くの原因によって引き起こされる。
本稿ではまず,高次元データの操作に関わる5つの課題を要約し,回帰,分類,クラスタリングタスクの失敗の原因について説明する。
次に, 次元の呪い, 距離集中, 多様体効果の2つの主な原因を理論的, 経験的分析によって考察する。
その結果,3つの典型的な距離,ミンコフスキー距離,チェビシェフ距離,コサイン距離を用いた近接探索(NNS)は次元が増加するにつれて意味がなくなることがわかった。
一方、データにはより冗長な特徴が組み込まれており、主成分分析(PCA)の分散寄与は数次元に歪められている。
次元の呪いの原因を解釈することで、現在のモデルやアルゴリズムの限界をよりよく理解し、高次元空間におけるデータ解析や機械学習タスクの性能を向上させることができる。
関連論文リスト
- Exploring the Meaningfulness of Nearest Neighbor Search in High-Dimensional Space [11.006299554632461]
コンピュータビジョン、機械学習、大規模言語モデル(LLM)などの分野において「高次元ベクトル」がますます重要になっている。
これらの高次元ベクトルに対して最も近い近接探索(NNS)にもかかわらず、検索拡張生成(RAG)やその他の多くの用途に広く用いられている。
本研究は,埋め込み型データ表現法の有効性を示し,高密度ベクトル関連アプリケーションのさらなる最適化の機会を提供する。
論文 参考訳(メタデータ) (2024-10-08T07:28:17Z) - StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Surpassing Cosine Similarity for Multidimensional Comparisons: Dimension Insensitive Euclidean Metric (DIEM) [3.812115031347965]
次元不感なユークリッド計量(DIEM)を導入し, 寸法間の強靭性と一般化性を示す。
DIEMは、一貫した変動性を維持し、従来のメトリクスで観測されたバイアスを排除し、高次元比較のための信頼できるツールとなる。
この新しい計量はコサインの類似性を置き換える可能性を秘めており、神経運動制御から機械学習、深層学習に至るまでの分野における多次元データをより正確で洞察に富んだ分析方法を提供する。
論文 参考訳(メタデータ) (2024-07-11T16:00:22Z) - Enhancing Dimension-Reduced Scatter Plots with Class and Feature Centroids [0.0]
データセットが2次元に縮小されると、各観測は x と y の座標に割り当てられ、散乱プロット上の点として表される。
重要な課題は、次元減少に固有の複雑さのため、x と y の軸の意味を解釈することである。
本研究は, 次元減少から導出されるx, y座標を用いて, 散乱プロット上にオーバーレイ可能なクラスおよび特徴セントロイドを計算することで, この課題に対処する。
論文 参考訳(メタデータ) (2024-03-29T15:45:25Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Scaling Riemannian Diffusion Models [68.52820280448991]
非自明な多様体上の高次元タスクにスケールできることを示す。
我々は、$SU(n)$格子上のQCD密度と高次元超球面上の対照的に学習された埋め込みをモデル化する。
論文 参考訳(メタデータ) (2023-10-30T21:27:53Z) - Interpretable Linear Dimensionality Reduction based on Bias-Variance
Analysis [45.3190496371625]
本稿では,特徴の解釈可能性を維持するための基本次元削減手法を提案する。
このように、全ての特徴を考慮し、次元性を減らし、解釈可能性を保持する。
論文 参考訳(メタデータ) (2023-03-26T14:30:38Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Multi-point dimensionality reduction to improve projection layout
reliability [77.34726150561087]
通常の次元還元(dr)では、m-次元空間(原空間)の各データインスタンスは、d-次元空間(視覚空間)内の一点にマッピングされる。
当社のソリューションであるRed Gray Plusは、通常のDRとグラフ描画技術を組み合わせて構築され、拡張されています。
論文 参考訳(メタデータ) (2021-01-15T17:17:02Z) - Unsupervised Discretization by Two-dimensional MDL-based Histogram [0.0]
教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。
本稿では,2次元データのより柔軟な分割を可能にする表現型モデルクラスを提案する。
本稿では,各次元を交互に分割し,隣接する領域をマージするPALMというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。