論文の概要: Wasserstein t-SNE
- arxiv url: http://arxiv.org/abs/2205.07531v1
- Date: Mon, 16 May 2022 09:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 14:59:36.058408
- Title: Wasserstein t-SNE
- Title(参考訳): Wasserstein t-Sne
- Authors: Fynn Bachmann, Philipp Hennig, Dmitry Kobak
- Abstract要約: 本稿では,ワッサーシュタイン距離距離計を用いた階層的データセットの探索的解析手法を開発した。
対のワッサーシュタイン距離の行列に基づいて、t-SNEを用いて単位の2次元埋め込みを構築する。
- 参考スコア(独自算出の注目度): 25.241296604908424
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scientific datasets often have hierarchical structure: for example, in
surveys, individual participants (samples) might be grouped at a higher level
(units) such as their geographical region. In these settings, the interest is
often in exploring the structure on the unit level rather than on the sample
level. Units can be compared based on the distance between their means, however
this ignores the within-unit distribution of samples. Here we develop an
approach for exploratory analysis of hierarchical datasets using the
Wasserstein distance metric that takes into account the shapes of within-unit
distributions. We use t-SNE to construct 2D embeddings of the units, based on
the matrix of pairwise Wasserstein distances between them. The distance matrix
can be efficiently computed by approximating each unit with a Gaussian
distribution, but we also provide a scalable method to compute exact
Wasserstein distances. We use synthetic data to demonstrate the effectiveness
of our Wasserstein t-SNE, and apply it to data from the 2017 German
parliamentary election, considering polling stations as samples and voting
districts as units. The resulting embedding uncovers meaningful structure in
the data.
- Abstract(参考訳): 科学的データセットは階層構造を持つことが多く、例えば調査では、個々の参加者(サンプル)は地理的領域のようなより高いレベル(単位)にグループ化されることがある。
これらの設定において、しばしば、サンプルレベルではなくユニットレベルの構造を探索することに関心が向けられる。
単位は平均間の距離に基づいて比較できるが、これはサンプルの単位内分布を無視する。
本稿では,単位内分布の形状を考慮したwasserstein距離メトリックを用いた階層的データセット探索分析手法を開発した。
対のワッサーシュタイン距離の行列に基づいて、t-SNEを用いて単位の2次元埋め込みを構築する。
距離行列はガウス分布で各単位を近似することで効率的に計算できるが、正確なワッサーシュタイン距離を計算するスケーラブルな方法も提供する。
我々は合成データを用いてwasserstein t-sneの有効性を実証し、2017年のドイツ議会選挙のデータに適用し、投票所をサンプルとして、投票地区を単位として検討した。
その結果、埋め込みによってデータに意味のある構造が明らかになった。
関連論文リスト
- Fused Gromov-Wasserstein Variance Decomposition with Linear Optimal Transport [11.94799054956877]
2-ワッサーシュタイン空間における測度の集合のフレット分散の分解を行い、これらの測度のLOT埋め込みによって説明される分散の割合を計算する。
また, 組込みLOTの寸法, 分散率, 組込みデータに基づく機械学習分類器の分類精度との関係について検討した。
論文 参考訳(メタデータ) (2024-11-15T14:10:52Z) - Federated Wasserstein Distance [16.892296712204597]
本稿では、2つの分布間のワッサーシュタイン距離を連合的に計算する原理的方法を紹介する。
中央のエンティティ/サーバが計算をオーケストレーションしている間に、異なるデバイス/クライアントに格納および保持されている2つのサンプル間のWasserstein距離を推定する方法を示す。
論文 参考訳(メタデータ) (2023-10-03T11:30:50Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Concrete Score Matching: Generalized Score Matching for Discrete Data [109.12439278055213]
コンクレトスコア(Concrete score)とは、個別の設定のためのスコア(ステイン)の一般化である。
コンクレトスコアマッチング(Concrete Score Matching)は、サンプルからこのようなスコアを学習するフレームワークである。
論文 参考訳(メタデータ) (2022-11-02T00:41:37Z) - Density Ratio Estimation via Infinitesimal Classification [85.08255198145304]
そこで我々は, DRE-inftyを提案する。 DRE-inftyは, 密度比推定(DRE)を, より簡単なサブプロブレムに還元する手法である。
モンテカルロ法にインスパイアされ、中間ブリッジ分布の無限連続体を介して2つの分布の間を滑らかに補間する。
提案手法は,複雑な高次元データセット上での相互情報推定やエネルギーベースモデリングなどの下流タスクにおいて良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-22T06:26:29Z) - On the use of Wasserstein metric in topological clustering of
distributional data [0.0]
本稿では,SOM学習に基づくヒストグラムデータのクラスタリングアルゴリズムについて述べる。
これはSOMによる次元減少と、縮小された空間におけるデータのクラスタリングを組み合わせたものである。
論文 参考訳(メタデータ) (2021-09-09T14:27:15Z) - Depth-based pseudo-metrics between probability distributions [1.1470070927586016]
本研究では,データ深度に基づく連続確率測度と関連する中央領域の2つの疑似測度を提案する。
Wasserstein距離とは対照的に、提案された疑似メトリックは次元の呪いに苦しむことはない。
地域ベースの擬似メトリックは堅牢なw.r.tである。
両端と尾が重い。
論文 参考訳(メタデータ) (2021-03-23T17:33:18Z) - Learning High Dimensional Wasserstein Geodesics [55.086626708837635]
高次元の2つの確率分布の間のワッサーシュタイン測地線を計算するための新しい定式化と学習戦略を提案する。
ラグランジュ乗算器の手法を最適輸送(OT)問題の動的定式化に適用することにより、サドル点がワッサーシュタイン測地線であるミニマックス問題を導出する。
次に、深層ニューラルネットワークによる関数のパラメータ化を行い、トレーニングのためのサンプルベースの双方向学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-02-05T04:25:28Z) - Two-sample Test using Projected Wasserstein Distance [18.46110328123008]
統計学と機械学習の基本的な問題である2サンプルテストのための予測されたワッサースタイン距離を開発する。
重要な貢献は、投影された確率分布の間のワッサーシュタイン距離を最大化する低次元線型写像を見つけるために最適射影を結合することである。
論文 参考訳(メタデータ) (2020-10-22T18:08:58Z) - Augmented Sliced Wasserstein Distances [55.028065567756066]
拡張スライスされたワッサーシュタイン距離(ASWD)と呼ばれる新しい距離測定法を提案する。
ASWDは、ニューラルネットワークによってパラメータ化された高次元超曲面への最初のマッピングサンプルによって構成される。
数値的な結果から、ASWDは、合成問題と実世界の問題の両方において、他のワッサーシュタイン変種を著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2020-06-15T23:00:08Z) - Fast and Robust Comparison of Probability Measures in Heterogeneous
Spaces [62.35667646858558]
本稿では, アンカー・エナジー (AE) とアンカー・ワッサースタイン (AW) 距離を紹介する。
我々の主な貢献は、素案実装が立方体となる対数四重項時間でAEを正確に計算するスイープラインアルゴリズムを提案することである。
AE と AW は,一般的な GW 近似の計算コストのごく一部において,様々な実験環境において良好に動作することを示す。
論文 参考訳(メタデータ) (2020-02-05T03:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。