論文の概要: Universal Lower Bounds and Optimal Rates: Achieving Minimax Clustering Error in Sub-Exponential Mixture Models
- arxiv url: http://arxiv.org/abs/2402.15432v2
- Date: Wed, 17 Jul 2024 08:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:39:10.137840
- Title: Universal Lower Bounds and Optimal Rates: Achieving Minimax Clustering Error in Sub-Exponential Mixture Models
- Title(参考訳): 普遍的下界と最適速度:サブ指数混合モデルにおけるミニマックスクラスタリング誤差の達成
- Authors: Maximilien Dreveton, Alperen Gözeten, Matthias Grossglauser, Patrick Thiran,
- Abstract要約: まず、混合モデルのクラスタリングにおける誤差率の普遍的な下限を確立する。
次に、この下界をサブ指数尾を持つ混合モデルで再現的アルゴリズムが達成できることを実証する。
ポアソンまたは負二項混合によりモデル化されたデータセットについて,指数族に属する混合モデルについて検討した。
このような混合では、ブロッグマンの発散を利用したロイドのアルゴリズムの変種であるブロッグマンのハードクラスタリングが最適であることを示す。
- 参考スコア(独自算出の注目度): 8.097200145973389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering is a pivotal challenge in unsupervised machine learning and is often investigated through the lens of mixture models. The optimal error rate for recovering cluster labels in Gaussian and sub-Gaussian mixture models involves ad hoc signal-to-noise ratios. Simple iterative algorithms, such as Lloyd's algorithm, attain this optimal error rate. In this paper, we first establish a universal lower bound for the error rate in clustering any mixture model, expressed through a Chernoff divergence, a more versatile measure of model information than signal-to-noise ratios. We then demonstrate that iterative algorithms attain this lower bound in mixture models with sub-exponential tails, notably emphasizing location-scale mixtures featuring Laplace-distributed errors. Additionally, for datasets better modelled by Poisson or Negative Binomial mixtures, we study mixture models whose distributions belong to an exponential family. In such mixtures, we establish that Bregman hard clustering, a variant of Lloyd's algorithm employing a Bregman divergence, is rate optimal.
- Abstract(参考訳): クラスタリングは教師なし機械学習において重要な課題であり、混合モデルのレンズを通してしばしば研究される。
ガウスとガウスの混合モデルにおけるクラスタラベルの復元に最適な誤差率には、アドホック信号-雑音比が含まれる。
ロイドのアルゴリズムのような単純な反復アルゴリズムは、この最適な誤差率を達成する。
本稿ではまず,任意の混合モデルのクラスタリングにおいて,信号対雑音比よりもモデル情報の多角的尺度であるチェルノフ発散によって表現される誤り率の普遍的下限を確立する。
そこで我々は,ラプラス分布誤差を特徴とする位置スケール混合を特に強調する部分指数尾を持つ混合モデルにおいて,この下界を反復的アルゴリズムが達成できることを実証した。
さらに、ポアソンまたは負二項混合によりモデル化されたデータセットについて、指数関数族に属する混合モデルについて検討する。
このような混合では、ブロッグマンの発散を利用したロイドのアルゴリズムの変種であるブロッグマンのハードクラスタリングが最適であることを示す。
関連論文リスト
- Adaptive Fuzzy C-Means with Graph Embedding [84.47075244116782]
ファジィクラスタリングアルゴリズムは、大まかに2つの主要なグループに分類できる: ファジィC平均法(FCM)と混合モデルに基づく方法。
本稿では,FCMを用いたクラスタリングモデルを提案する。
論文 参考訳(メタデータ) (2024-05-22T08:15:50Z) - Learning a Gaussian Mixture for Sparsity Regularization in Inverse
Problems [2.375943263571389]
逆問題では、スパーシティ事前の組み込みは、解に対する正則化効果をもたらす。
本稿では,ガウスの混合として事前に定式化された確率的疎性について提案する。
我々は、このネットワークのパラメータを推定するために、教師なしのトレーニング戦略と教師なしのトレーニング戦略をそれぞれ導入した。
論文 参考訳(メタデータ) (2024-01-29T22:52:57Z) - Fast Semi-supervised Unmixing using Non-convex Optimization [85.95119207126292]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - Optimal Clustering of Discrete Mixtures: Binomial, Poisson, Block
Models, and Multi-layer Networks [9.57586103097079]
多層ネットワークが存在する場合のクラスタリングネットワークの基本的限界について検討する。
混合多層ブロックモデル (MMSBM) では, 最適ネットワーククラスタリング誤差率の最小値が指数関数形式であることを示す。
本稿では,ノード分割とサンプル分割の両方を含むテンソルベースアルゴリズムを含む,新しい2段階ネットワーククラスタリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-27T07:48:50Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Optimal Clustering by Lloyd Algorithm for Low-Rank Mixture Model [12.868722327487752]
行列値の観測を行うために低ランク混合モデル(LrMM)を提案する。
ロイドのアルゴリズムと低ランク近似を統合して計算効率のよいクラスタリング法を設計する。
本手法は,実世界のデータセットにおける文献上の他者よりも優れる。
論文 参考訳(メタデータ) (2022-07-11T03:16:10Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Optimal Clustering in Anisotropic Gaussian Mixture Models [3.5590836605011047]
異方性ガウス混合モデルに基づくクラスタリング作業について検討する。
クラスタ中心における信号対雑音比の依存性を特徴づける。
論文 参考訳(メタデータ) (2021-01-14T00:31:52Z) - Clustering of non-Gaussian data by variational Bayes for normal inverse
Gaussian mixture models [0.0]
実際の状況では、重い尾を持つ非ガウス的データや非対称なデータが多く存在する。
NIG混合モデルでは、期待最大化法と変分ベイズアルゴリズムの両方が提案されている。
NIG混合のための別のVBアルゴリズムを提案し、欠点を改善する。
また,クラスタ数決定の難しさを克服するため,ディリクレプロセス混合モデルの拡張も提案する。
論文 参考訳(メタデータ) (2020-09-13T14:13:27Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。