論文の概要: Measuring spatial uniformity with the hypersphere chord length
distribution
- arxiv url: http://arxiv.org/abs/2004.05692v1
- Date: Sun, 12 Apr 2020 20:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 05:44:21.691882
- Title: Measuring spatial uniformity with the hypersphere chord length
distribution
- Title(参考訳): 超球弦長分布による空間均一度の測定
- Authors: Panagiotis Sidiropoulos
- Abstract要約: 本稿では,高次元ユークリッド空間におけるデータ均一性の評価と一様点検出のための新しい尺度を提案する。
均一度を定量化するために、一様選択点の距離分布と超球面コード長分布との強制接続を用いる。
- 参考スコア(独自算出の注目度): 0.7310043452300736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data uniformity is a concept associated with several semantic data
characteristics such as lack of features, correlation and sample bias. This
article introduces a novel measure to assess data uniformity and detect uniform
pointsets on high-dimensional Euclidean spaces. Spatial uniformity measure
builds upon the isomorphism between hyperspherical chords and L2-normalised
data Euclidean distances, which is implied by the fact that, in Euclidean
spaces, L2-normalised data can be geometrically defined as points on a
hypersphere. The imposed connection between the distance distribution of
uniformly selected points and the hyperspherical chord length distribution is
employed to quantify uniformity. More specifically,, the closed-form expression
of hypersphere chord length distribution is revisited extended, before
examining a few qualitative and quantitative characteristics of this
distribution that can be rather straightforwardly linked to data uniformity.
The experimental section includes validation in four distinct setups, thus
substantiating the potential of the new uniformity measure on practical
data-science applications.
- Abstract(参考訳): データ均一性(data uniformity)は、特徴の欠如、相関、サンプルバイアスなど、いくつかの意味的データ特性に関連する概念である。
本稿では,高次元ユークリッド空間におけるデータ均一性の評価と一様点検出のための新しい尺度を提案する。
空間的均一度尺度は超球面コードとユークリッド距離L2-正規化データの間の同型性に基づいており、これはユークリッド空間において、L2-正規化データは超球面上の点として幾何学的に定義できるという事実によって示唆される。
均一性を評価するために、一様選択点の距離分布と超球面コード長分布との強制接続を用いる。
より具体的には、超球面コード長分布の閉形式表現が再検討され、データ均一性と比較的簡単に結びつくことのできる、この分布の質的で定量的な特性がいくつか調べられる。
実験セクションには、4つの異なる設定での検証が含まれており、実用的なデータサイエンス応用における新しい均一性尺度の可能性を実証している。
関連論文リスト
- Empirical Density Estimation based on Spline Quasi-Interpolation with
applications to Copulas clustering modeling [0.0]
密度推定は、様々な分野において、基礎となるデータの分布をモデル化し理解するための基礎的な手法である。
本稿では,擬似補間による密度の単変量近似を提案する。
提案アルゴリズムは人工データセットと実データセットで検証される。
論文 参考訳(メタデータ) (2024-02-18T11:49:38Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Shape And Structure Preserving Differential Privacy [70.08490462870144]
正方形距離関数の勾配がラプラス機構よりも感度をよりよく制御できることを示す。
また,2乗距離関数の勾配を用いることで,ラプラス機構よりも感度を制御できることを示す。
論文 参考訳(メタデータ) (2022-09-21T18:14:38Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Time-inhomogeneous diffusion geometry and topology [69.55228523791897]
拡散凝縮(英: Diffusion condensation)は、各ステップが最初に計算し、そのデータに拡散演算子を適用する時間不均質な過程である。
我々はこの過程の収束と進化を幾何学的、スペクトル的、位相的観点から理論的に分析する。
我々の研究は拡散凝縮の収束に関する理論的洞察を与え、トポロジカルデータ解析と幾何学的データ解析のリンクを提供することを示している。
論文 参考訳(メタデータ) (2022-03-28T16:06:17Z) - Tangent Space and Dimension Estimation with the Wasserstein Distance [10.118241139691952]
ユークリッド空間の滑らかなコンパクト部分多様体の近くで独立にサンプリングされた点の集合を考える。
我々は、その多様体の次元と接空間の両方を推定するために必要なサンプル点の数について数学的に厳密な境界を与える。
論文 参考訳(メタデータ) (2021-10-12T21:02:06Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Depth-based pseudo-metrics between probability distributions [1.1470070927586016]
本研究では,データ深度に基づく連続確率測度と関連する中央領域の2つの疑似測度を提案する。
Wasserstein距離とは対照的に、提案された疑似メトリックは次元の呪いに苦しむことはない。
地域ベースの擬似メトリックは堅牢なw.r.tである。
両端と尾が重い。
論文 参考訳(メタデータ) (2021-03-23T17:33:18Z) - Geometry of Similarity Comparisons [51.552779977889045]
空間形式の順序容量は、その次元と曲率の符号に関係していることを示す。
さらに重要なことは、類似性グラフ上で定義された順序拡散確率変数の統計的挙動が、その基礎となる空間形式を特定するのに利用できることである。
論文 参考訳(メタデータ) (2020-06-17T13:37:42Z) - AI Giving Back to Statistics? Discovery of the Coordinate System of
Univariate Distributions by Beta Variational Autoencoder [0.0]
本稿では、単変量経験分布を分類し、累積分布関数(CDF)の入力に基づいて2次元の潜伏空間で表現するためのニューラルネットワークのトレーニング経験について論じる。
潜在2次元座標系上の表現は、CDFの形状、基礎となる理論分布とそのパラメータの分類確率、情報エントロピー、歪みなど、重要な分布特性を乱す実世界のデータの付加メタデータと見なすことができる。
論文 参考訳(メタデータ) (2020-04-06T14:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。