論文の概要: Interpreting the Curse of Dimensionality from Distance Concentration and Manifold Effect
- arxiv url: http://arxiv.org/abs/2401.00422v3
- Date: Thu, 20 Mar 2025 10:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 22:15:18.022856
- Title: Interpreting the Curse of Dimensionality from Distance Concentration and Manifold Effect
- Title(参考訳): 距離濃度からの次元曲線の解釈とマニフォールド効果
- Authors: Dehua Peng, Zhipeng Gui, Huayi Wu,
- Abstract要約: まず、高次元データを操作する際の潜在的な課題を要約し、回帰、分類、クラスタリングタスクの失敗の原因を説明する。
次に、理論的および経験的分析を行うことにより、次元性、距離集中、多様体効果の呪いの2つの主要な原因を掘り下げる。
その結果、次元が増加するにつれて、ミンコフスキー距離、チェビシェフ距離、コサイン距離の3つの古典的距離測定を用いた近接探索(NNS)が無意味になることが示された。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The characteristics of data like distribution and heterogeneity, become more complex and counterintuitive as dimensionality increases. This phenomenon is known as curse of dimensionality, where common patterns and relationships (e.g., internal pattern and boundary pattern) that hold in low-dimensional space may be invalid in higher-dimensional space. It leads to a decreasing performance for the regression, classification, or clustering models or algorithms. Curse of dimensionality can be attributed to many causes. In this paper, we first summarize the potential challenges associated with manipulating high-dimensional data, and explains the possible causes for the failure of regression, classification, or clustering tasks. Subsequently, we delve into two major causes of the curse of dimensionality, distance concentration, and manifold effect, by performing theoretical and empirical analyses. The results demonstrate that, as the dimensionality increases, nearest neighbor search (NNS) using three classical distance measurements, Minkowski distance, Chebyshev distance, and cosine distance, becomes meaningless. Meanwhile, the data incorporates more redundant features, and the variance contribution of principal component analysis (PCA) is skewed towards a few dimensions.
- Abstract(参考訳): 分布や不均一性のようなデータの特徴は、次元が増加するにつれてより複雑で直感的になる。
この現象は次元性の呪いとして知られ、低次元空間において保持される共通パターンと関係(例えば、内部パターンと境界パターン)は高次元空間では無効である。
回帰、分類、クラスタリングモデルやアルゴリズムのパフォーマンスが低下する。
次元の曲線は多くの原因に起因する。
本稿ではまず,高次元データの操作に関する潜在的な課題を要約し,回帰,分類,クラスタリングといったタスクの失敗の原因を説明する。
その後、理論的および経験的分析を行うことにより、次元性、距離集中、多様体効果の呪いの2つの主要な原因を掘り下げる。
その結果、次元が増加するにつれて、ミンコフスキー距離、チェビシェフ距離、コサイン距離の3つの古典的距離測定を用いた近接探索(NNS)が無意味になることが示された。
一方、データにはより冗長な特徴が組み込まれており、主成分分析(PCA)の分散寄与は数次元に歪められている。
関連論文リスト
- Networks with Finite VC Dimension: Pro and Contra [1.0128808054306184]
有限VC次元は経験的誤差の一様収束には望ましいが、確率分布から引き出された関数の近似は、それらが与えられた種類のアプリケーションで起こる可能性のモデル化には向いていないことが示されている。
データからの学習における近似の精度と一貫性のトレードオフ、ReLUユニットによるネットワークの深さが精度と一貫性に与える影響について論じる。
論文 参考訳(メタデータ) (2025-02-04T19:44:14Z) - Exploring the Meaningfulness of Nearest Neighbor Search in High-Dimensional Space [11.006299554632461]
コンピュータビジョン、機械学習、大規模言語モデル(LLM)などの分野において「高次元ベクトル」がますます重要になっている。
これらの高次元ベクトルに対して最も近い近接探索(NNS)にもかかわらず、検索拡張生成(RAG)やその他の多くの用途に広く用いられている。
本研究は,埋め込み型データ表現法の有効性を示し,高密度ベクトル関連アプリケーションのさらなる最適化の機会を提供する。
論文 参考訳(メタデータ) (2024-10-08T07:28:17Z) - StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Surpassing Cosine Similarity for Multidimensional Comparisons: Dimension Insensitive Euclidean Metric (DIEM) [3.812115031347965]
次元不感なユークリッド計量(DIEM)を導入し, 寸法間の強靭性と一般化性を示す。
DIEMは、一貫した変動性を維持し、従来のメトリクスで観測されたバイアスを排除し、高次元比較のための信頼できるツールとなる。
この新しい計量はコサインの類似性を置き換える可能性を秘めており、神経運動制御から機械学習、深層学習に至るまでの分野における多次元データをより正確で洞察に富んだ分析方法を提供する。
論文 参考訳(メタデータ) (2024-07-11T16:00:22Z) - Enhancing Dimension-Reduced Scatter Plots with Class and Feature Centroids [0.0]
データセットが2次元に縮小されると、各観測は x と y の座標に割り当てられ、散乱プロット上の点として表される。
重要な課題は、次元減少に固有の複雑さのため、x と y の軸の意味を解釈することである。
本研究は, 次元減少から導出されるx, y座標を用いて, 散乱プロット上にオーバーレイ可能なクラスおよび特徴セントロイドを計算することで, この課題に対処する。
論文 参考訳(メタデータ) (2024-03-29T15:45:25Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Scaling Riemannian Diffusion Models [68.52820280448991]
非自明な多様体上の高次元タスクにスケールできることを示す。
我々は、$SU(n)$格子上のQCD密度と高次元超球面上の対照的に学習された埋め込みをモデル化する。
論文 参考訳(メタデータ) (2023-10-30T21:27:53Z) - Interpretable Linear Dimensionality Reduction based on Bias-Variance
Analysis [45.3190496371625]
本稿では,特徴の解釈可能性を維持するための基本次元削減手法を提案する。
このように、全ての特徴を考慮し、次元性を減らし、解釈可能性を保持する。
論文 参考訳(メタデータ) (2023-03-26T14:30:38Z) - CausalEGM: a general causal inference framework by encoding generative
modeling [6.7136914531247065]
生成モデルを用いて因果効果を推定するための一般的なフレームワークであるtextitCausalEGM$を開発する。
非整合性のある潜在的な結果の枠組みの下では、高次元の共創者空間と低次元の潜在空間の間の双方向変換を確立する。
低次元の潜伏特性を条件にすることで、CausalEGMは個体ごとの因果効果や集団内の平均因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-12-08T20:40:57Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Hard-label Manifolds: Unexpected Advantages of Query Efficiency for
Finding On-manifold Adversarial Examples [67.23103682776049]
画像分類モデルに対する最近のゼロオーダーのハードラベル攻撃は、ファーストオーダーのグラデーションレベルの代替品に匹敵する性能を示している。
最近、グラデーションレベルの設定では、通常の敵対的な例がデータ多様体から離れ、オンマニホールドの例が実際には一般化エラーであることが示されている。
雑音の多い多様体距離オラクルに基づく情報理論論的議論を提案し、敵の勾配推定を通じて多様体情報を漏洩させる。
論文 参考訳(メタデータ) (2021-03-04T20:53:06Z) - Multi-point dimensionality reduction to improve projection layout
reliability [77.34726150561087]
通常の次元還元(dr)では、m-次元空間(原空間)の各データインスタンスは、d-次元空間(視覚空間)内の一点にマッピングされる。
当社のソリューションであるRed Gray Plusは、通常のDRとグラフ描画技術を組み合わせて構築され、拡張されています。
論文 参考訳(メタデータ) (2021-01-15T17:17:02Z) - Manifold Learning via Manifold Deflation [105.7418091051558]
次元削減法は、高次元データの可視化と解釈に有用な手段を提供する。
多くの一般的な手法は単純な2次元のマニフォールドでも劇的に失敗する。
本稿では,グローバルな構造を座標として組み込んだ,新しいインクリメンタルな空間推定器の埋め込み手法を提案する。
実験により,本アルゴリズムは実世界および合成データセットに新規で興味深い埋め込みを復元することを示した。
論文 参考訳(メタデータ) (2020-07-07T10:04:28Z) - ABID: Angle Based Intrinsic Dimensionality [0.0]
内在的な次元性は、データ表現の次元性とは対照的に、データの真の次元性を指す。
局所固有次元を推定するための最も一般的な方法は距離に基づく。
角度の理論的分布を導出し、これを用いて固有次元の推定器を構築する。
論文 参考訳(メタデータ) (2020-06-23T10:19:34Z) - Unsupervised Discretization by Two-dimensional MDL-based Histogram [0.0]
教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。
本稿では,2次元データのより柔軟な分割を可能にする表現型モデルクラスを提案する。
本稿では,各次元を交互に分割し,隣接する領域をマージするPALMというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。