論文の概要: Spectral Clustering for Discrete Distributions
- arxiv url: http://arxiv.org/abs/2401.13913v2
- Date: Fri, 16 Aug 2024 06:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 20:45:34.225335
- Title: Spectral Clustering for Discrete Distributions
- Title(参考訳): 離散分布のためのスペクトルクラスタリング
- Authors: Zixiao Wang, Dong Qiao, Jicong Fan,
- Abstract要約: 伝統的に、離散分布(D2C)のクラスタリングは、Wasserstein Barycenter法を用いてアプローチされてきた。
本研究では, スペクトルクラスタリングと分布親和性尺度を組み合わせることで, バリセンタ法よりも精度が高く, 効率的であることを示す。
クラスタリング分布における手法の成功を理論的に保証する。
- 参考スコア(独自算出の注目度): 22.450518079181542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The discrete distribution is often used to describe complex instances in machine learning, such as images, sequences, and documents. Traditionally, clustering of discrete distributions (D2C) has been approached using Wasserstein barycenter methods. These methods operate under the assumption that clusters can be well-represented by barycenters, which is seldom true in many real-world applications. Additionally, these methods are not scalable for large datasets due to the high computational cost of calculating Wasserstein barycenters. In this work, we explore the feasibility of using spectral clustering combined with distribution affinity measures (e.g., maximum mean discrepancy and Wasserstein distance) to cluster discrete distributions. We demonstrate that these methods can be more accurate and efficient than barycenter methods. To further enhance scalability, we propose using linear optimal transport to construct affinity matrices efficiently for large datasets. We provide theoretical guarantees for the success of our methods in clustering distributions. Experiments on both synthetic and real data show that our methods outperform existing baselines.
- Abstract(参考訳): 離散分布はしばしば、画像、シーケンス、ドキュメントなどの機械学習の複雑なインスタンスを記述するために使われる。
伝統的に、離散分布(D2C)のクラスタリングは、Wasserstein Barycenter法を用いてアプローチされてきた。
これらの手法は、クラスタがバリセンタによって十分に表現できるという仮定の下で動作し、多くの実世界のアプリケーションではそうではない。
さらに、これらの手法は、Wasserstein Barycentersを計算する計算コストが高いため、大規模なデータセットには拡張性がない。
本研究では,スペクトルクラスタリングと分布親和性尺度(例えば,最大平均差とワッサーシュタイン距離)を併用した離散分布のクラスタリングの実現可能性について検討する。
これらの手法は, バリセンタ法よりも正確かつ効率的であることが実証された。
スケーラビリティをさらに向上するため,大規模データセットに対する親和性行列を効率的に構築するための線形最適輸送法を提案する。
クラスタリング分布における手法の成功を理論的に保証する。
合成データと実データの両方の実験により,本手法が既存のベースラインより優れていることが示された。
関連論文リスト
- Faithful Density-Peaks Clustering via Matrix Computations on MPI Parallelization System [7.594123537718585]
密度ピーククラスタリング(DP)は任意の形状のクラスタを検出し、非ユークリッド空間データをクラスタリングする能力を持つ。
本稿では,2種類のベクトル状距離行列と逆前ノードファイリングポリシを併用した忠実かつ並列なDP法を提案する。
本手法は,コミュニティ検出などの非ユークリッドデータをクラスタリングすると同時に,大規模ユークリッドデータをクラスタリングする場合の精度において,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-06-18T06:05:45Z) - Synergistic eigenanalysis of covariance and Hessian matrices for
enhanced binary classification [75.90957645766676]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
我々のアプローチは、クラス間の平均距離を最大化し、クラス内の分散を最小化する能力を確立する形式的な証明によって裏付けられている。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - Estimating Barycenters of Distributions with Neural Optimal Transport [93.28746685008093]
本稿では,Wasserstein Barycenter問題を解くための新しいスケーラブルなアプローチを提案する。
我々の手法は最近のNeural OTソルバをベースとしている。
また,提案手法の理論的誤差境界も確立する。
論文 参考訳(メタデータ) (2024-02-06T09:17:07Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Dataset Distillation via the Wasserstein Metric [35.32856617593164]
最適な輸送理論に基づく計量であるワッサーシュタイン距離を導入し, データセット蒸留における分布整合性を高める。
提案手法は,高解像度データセットにまたがって,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-30T13:15:28Z) - Density Ratio Estimation via Infinitesimal Classification [85.08255198145304]
そこで我々は, DRE-inftyを提案する。 DRE-inftyは, 密度比推定(DRE)を, より簡単なサブプロブレムに還元する手法である。
モンテカルロ法にインスパイアされ、中間ブリッジ分布の無限連続体を介して2つの分布の間を滑らかに補間する。
提案手法は,複雑な高次元データセット上での相互情報推定やエネルギーベースモデリングなどの下流タスクにおいて良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-22T06:26:29Z) - Density-Based Clustering with Kernel Diffusion [59.4179549482505]
単位$d$次元ユークリッド球のインジケータ関数に対応するナイーブ密度は、密度に基づくクラスタリングアルゴリズムで一般的に使用される。
局所分布特性と滑らかさの異なるデータに適応する新しいカーネル拡散密度関数を提案する。
論文 参考訳(メタデータ) (2021-10-11T09:00:33Z) - Clustering Large Data Sets with Incremental Estimation of Low-density
Separating Hyperplanes [16.3460693863947]
教師なし文脈における低密度超平面分離器の効率的な取得法を提案する。
提案手法による実験により、関連するベンチマークと比較した場合、速度と精度の両面で非常に競争力があることが示された。
論文 参考訳(メタデータ) (2021-08-07T12:45:05Z) - Divide-and-conquer based Large-Scale Spectral Clustering [8.545202841051582]
そこで本研究では,分散・分散型大規模スペクトルクラスタリング手法を提案し,効率と効率のバランスを良くする。
提案手法は,既存の大規模スペクトルクラスタリングよりも計算量が少ない。
論文 参考訳(メタデータ) (2021-04-30T15:09:45Z) - Continuous Regularized Wasserstein Barycenters [51.620781112674024]
正規化ワッサーシュタイン・バリセンタ問題に対する新しい双対定式化を導入する。
我々は、強い双対性を確立し、対応する主対関係を用いて、正規化された輸送問題の双対ポテンシャルを用いて暗黙的にバリセンターをパラメトリゼーションする。
論文 参考訳(メタデータ) (2020-08-28T08:28:06Z) - Hyperspectral Image Clustering with Spatially-Regularized Ultrametrics [7.487718119544157]
超距離の空間正規化スペクトルクラスタリングに基づくハイパースペクトル画像の教師なしクラスタリング法を提案する。
提案手法は,データ密度とジオメトリを効率的に組み合わせて,ラベルのトレーニングを必要とせず,データの材料クラスを識別する。
論文 参考訳(メタデータ) (2020-04-10T14:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。