論文の概要: Depth-based pseudo-metrics between probability distributions
- arxiv url: http://arxiv.org/abs/2103.12711v1
- Date: Tue, 23 Mar 2021 17:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 16:23:51.653501
- Title: Depth-based pseudo-metrics between probability distributions
- Title(参考訳): 確率分布間の深さに基づく擬似計量
- Authors: Guillaume Staerman, Pavlo Mozharovskyi, St\'ephan Cl\'emen\c{c}on and
Florence d'Alch\'e-Buc
- Abstract要約: 本研究では,データ深度に基づく連続確率測度と関連する中央領域の2つの疑似測度を提案する。
Wasserstein距離とは対照的に、提案された疑似メトリックは次元の呪いに苦しむことはない。
地域ベースの擬似メトリックは堅牢なw.r.tである。
両端と尾が重い。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data depth is a non parametric statistical tool that measures centrality of
any element $x\in\mathbb{R}^d$ with respect to (w.r.t.) a probability
distribution or a data set. It is a natural median-oriented extension of the
cumulative distribution function (cdf) to the multivariate case. Consequently,
its upper level sets -- the depth-trimmed regions -- give rise to a definition
of multivariate quantiles. In this work, we propose two new pseudo-metrics
between continuous probability measures based on data depth and its associated
central regions. The first one is constructed as the Lp-distance between data
depth w.r.t. each distribution while the second one relies on the Hausdorff
distance between their quantile regions. It can further be seen as an original
way to extend the one-dimensional formulae of the Wasserstein distance, which
involves quantiles and cdfs, to the multivariate space. After discussing the
properties of these pseudo-metrics and providing conditions under which they
define a distance, we highlight similarities with the Wasserstein distance.
Interestingly, the derived non-asymptotic bounds show that in contrast to the
Wasserstein distance, the proposed pseudo-metrics do not suffer from the curse
of dimensionality. Moreover, based on the support function of a convex body, we
propose an efficient approximation possessing linear time complexity w.r.t. the
size of the data set and its dimension. The quality of this approximation as
well as the performance of the proposed approach are illustrated in
experiments. Furthermore, by construction the regions-based pseudo-metric
appears to be robust w.r.t. both outliers and heavy tails, a behavior witnessed
in the numerical experiments.
- Abstract(参考訳): データ深度は、(w.r.t) に関する任意の元 $x\in\mathbb{R}^d$ の集中度を測定する非パラメトリック統計ツールである。
確率分布またはデータセット。
これは多変数の場合への累積分布関数(cdf)の自然な中央値指向拡張である。
その結果、その上層集合、すなわち深さトリミングされた領域は、多変量体の定義をもたらす。
本研究では,データ深度に基づく連続確率測度と関連する中心領域の2つの新しい擬似測度を提案する。
1つ目はデータ深度w.r.t間のlp距離として構築される。
それぞれの分布は、第2の分布は、その分位域の間のハウスドルフ距離に依存する。
これはさらに、分位数とcdfを含むワッサースタイン距離の1次元公式を多変量空間に拡張する元の方法と見なすことができる。
これらの擬計量の性質を議論し、距離を定義する条件を与えると、ワッサーシュタイン距離との類似性が強調される。
興味深いことに、導出された非漸近的境界は、ワッサーシュタイン距離とは対照的に、提案された擬計量は次元の呪いを伴わないことを示している。
さらに,凸体の支持関数に基づいて,線形時間複雑性 w.r.t を持つ効率的な近似を提案する。
データセットのサイズとその次元です
この近似の質と提案手法の性能は実験で示される。
さらに、構成により、領域ベースの擬計量はロバスト w.r.t であるように見える。
アウトリアーとヘビーテールの両方が数値実験で見られた挙動である。
関連論文リスト
- Fast kernel half-space depth for data with non-convex supports [5.725360029813277]
我々は、分布の多モード性に取り組むために、祝福された半空間深さを延長する。
提案した深さは、半空間の深さよりも数桁高速な多様体勾配を用いて計算することができる。
数値シミュレーションや, 実データにおける異常検出, 均一性試験などの応用により, 深度特性を実証した。
論文 参考訳(メタデータ) (2023-12-21T18:55:22Z) - Computing the Distance between unbalanced Distributions -- The flat
Metric [0.0]
平坦計量は、よく知られたワッサーシュタイン距離 W1 を、分布が不等質量である場合に一般化する。
この手法のコアはニューラルネットワークに基づいて、2つの測度間の距離を実現する最適なテスト関数を決定する。
論文 参考訳(メタデータ) (2023-08-02T09:30:22Z) - Energy-Based Sliced Wasserstein Distance [47.18652387199418]
スライスされたワッサーシュタイン(SW)距離の鍵成分はスライス分布である。
本研究では,スライシング分布をパラメータフリーなエネルギーベース分布として設計する。
次に、新しいスライスされたワッセルシュタイン計量、エネルギーベースのスライスされたワッセルシュタイン距離(EBSW)を導出する。
論文 参考訳(メタデータ) (2023-04-26T14:28:45Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Hilbert Curve Projection Distance for Distribution Comparison [34.8765820950517]
2つの確率分布間の距離を測定するため,Hilbert curve projection (HCP) 距離と呼ばれる新しい計量法を提案する。
HCP距離は適切な計量であり、有界な支持を持つ確率測度に対して十分に定義されていることを示す。
合成データと実世界データの両方の実験により、我々のHCP距離は、複雑さの低いワッサーシュタイン距離の効果的なサロゲートとして機能することが示された。
論文 参考訳(メタデータ) (2022-05-30T12:40:32Z) - Tangent Space and Dimension Estimation with the Wasserstein Distance [10.118241139691952]
ユークリッド空間の滑らかなコンパクト部分多様体の近くで独立にサンプリングされた点の集合を考える。
我々は、その多様体の次元と接空間の両方を推定するために必要なサンプル点の数について数学的に厳密な境界を与える。
論文 参考訳(メタデータ) (2021-10-12T21:02:06Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Manifold Hypothesis in Data Analysis: Double Geometrically-Probabilistic
Approach to Manifold Dimension Estimation [92.81218653234669]
本稿では, 多様体仮説の検証と基礎となる多様体次元推定に対する新しいアプローチを提案する。
我々の幾何学的手法はミンコフスキー次元計算のためのよく知られたボックスカウントアルゴリズムのスパースデータの修正である。
実データセットの実験では、2つの手法の組み合わせに基づく提案されたアプローチが強力で効果的であることが示されている。
論文 参考訳(メタデータ) (2021-07-08T15:35:54Z) - Two-sample Test using Projected Wasserstein Distance [18.46110328123008]
統計学と機械学習の基本的な問題である2サンプルテストのための予測されたワッサースタイン距離を開発する。
重要な貢献は、投影された確率分布の間のワッサーシュタイン距離を最大化する低次元線型写像を見つけるために最適射影を結合することである。
論文 参考訳(メタデータ) (2020-10-22T18:08:58Z) - On Projection Robust Optimal Transport: Sample Complexity and Model
Misspecification [101.0377583883137]
射影ロバスト(PR)OTは、2つの測度の間のOTコストを最大化するために、射影可能な$k$次元部分空間を選択する。
私たちの最初の貢献は、PRワッサーシュタイン距離のいくつかの基本的な統計的性質を確立することである。
次に、部分空間を最適化するのではなく平均化することにより、PRW距離の代替として積分PRワッサーシュタイン距離(IPRW)を提案する。
論文 参考訳(メタデータ) (2020-06-22T14:35:33Z) - Augmented Sliced Wasserstein Distances [55.028065567756066]
拡張スライスされたワッサーシュタイン距離(ASWD)と呼ばれる新しい距離測定法を提案する。
ASWDは、ニューラルネットワークによってパラメータ化された高次元超曲面への最初のマッピングサンプルによって構成される。
数値的な結果から、ASWDは、合成問題と実世界の問題の両方において、他のワッサーシュタイン変種を著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2020-06-15T23:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。