論文の概要: Quantizing Multiple Sources to a Common Cluster Center: An Asymptotic
Analysis
- arxiv url: http://arxiv.org/abs/2010.12546v1
- Date: Fri, 23 Oct 2020 17:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:17:12.923560
- Title: Quantizing Multiple Sources to a Common Cluster Center: An Asymptotic
Analysis
- Title(参考訳): 共通クラスタセンターへの複数のソースの量子化:漸近解析
- Authors: Erdem Koyuncu
- Abstract要約: 我々は、$Ld$次元のサンプルを$d$次元のベクトルのデータセットから$Ld$次元のクラスタセンターに結合することで得られる$Ld$次元のサンプルを定量化することを検討する。
クラスタセンターの数が多いレジームにおける平均的性能歪みの式を求める。
元の(ノイズのない)データセットへの忠実さに関して、我々のクラスタリングアプローチは、$Ld$次元ノイズ観測ベクトルを$Ld$次元中心に量子化することに依拠する単純アプローチよりも優れています。
- 参考スコア(独自算出の注目度): 14.048989759890475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider quantizing an $Ld$-dimensional sample, which is obtained by
concatenating $L$ vectors from datasets of $d$-dimensional vectors, to a
$d$-dimensional cluster center. The distortion measure is the weighted sum of
$r$th powers of the distances between the cluster center and the samples. For
$L=1$, one recovers the ordinary center based clustering formulation. The
general case $L>1$ appears when one wishes to cluster a dataset through $L$
noisy observations of each of its members. We find a formula for the average
distortion performance in the asymptotic regime where the number of cluster
centers are large. We also provide an algorithm to numerically optimize the
cluster centers and verify our analytical results on real and artificial
datasets. In terms of faithfulness to the original (noiseless) dataset, our
clustering approach outperforms the naive approach that relies on quantizing
the $Ld$-dimensional noisy observation vectors to $Ld$-dimensional centers.
- Abstract(参考訳): 我々は、$l$のベクトルを$d$次元のベクトルのデータセットから$d$次元のクラスタセンターに連結して得られる$ld$次元のサンプルを定量化することを検討する。
歪測度は、クラスター中心とサンプルの間の距離 r$th の重み付き和である。
l=1$ の場合、通常のセンターベースのクラスタリングの定式化を復元する。
一般的な場合、$L>1$は、各メンバーのノイズの多い観測を通してデータセットをクラスタしたいときに現れる。
我々は,クラスター中心数が多い漸近的環境における平均歪み性能の式を見出した。
また、クラスタセンターを数値的に最適化し、実データと人工データセットの分析結果を検証するアルゴリズムも提供する。
元の(ノイズのない)データセットへの忠実性に関して、我々のクラスタリングアプローチは、$Ld$次元ノイズ観測ベクトルを$Ld$次元中心に量子化することに依拠する単純アプローチよりも優れている。
関連論文リスト
- Clustering to Minimize Cluster-Aware Norm Objectives [0.3481985817302898]
与えられたデータセットの$P$を$k$クラスタに分割し、$X$の$k$センターを見つける。
中心の$xin X$で表されるクラスタのコストは、x$に割り当てられた点の距離のベクトルの単調で対称なノルム$f$(インナーノルム)である。
目標は、クラスタコストのベクトルのノルム$g$(外部ノルム)を最小化することである。
論文 参考訳(メタデータ) (2024-10-31T16:33:40Z) - A Unified Framework for Center-based Clustering of Distributed Data [46.86543102499174]
我々は、ユーザのネットワーク上で動作する分散センターベースのクラスタリングアルゴリズムのファミリーを開発する。
私たちのフレームワークは、$K$-meansやHuber Losといった一般的なクラスタリング損失を含む、スムーズな凸損失関数の幅広いクラスを可能にします。
ブレグマン損失の特別の場合、固定点がロイド点の集合に収束することを示す。
論文 参考訳(メタデータ) (2024-02-02T10:44:42Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Wasserstein $K$-means for clustering probability distributions [16.153709556346417]
ユークリッド空間では、セントロイドと距離に基づくK$平均の定式化は同値である。
現代の機械学習アプリケーションでは、データは確率分布として発生し、測度値のデータを扱う自然な一般化は最適な輸送距離を使用する。
SDP緩和ワッサースタイン$K$-平均は、クラスターが2ドルワッサースタイン計量の下で十分に分離されているため、正確な回復を達成することができることを示す。
論文 参考訳(メタデータ) (2022-09-14T23:43:16Z) - No More Than 6ft Apart: Robust K-Means via Radius Upper Bounds [17.226362076527764]
k-means、k-medoids、k-centersといったCentroidベースのクラスタリング手法は、探索データ解析においてゴーツーツールとして強く応用されている。
多くの場合、これらの手法はデータセットの視覚化や要約のためにデータ多様体の代表的なセントロイドを得るのに使用される。
本研究では, 遠心円周波によって形成されるクラスターに最大半径制約$r$を導入することにより, このようなシナリオを緩和することを提案する。
論文 参考訳(メタデータ) (2022-03-04T18:59:02Z) - Sum-of-norms clustering does not separate nearby balls [49.1574468325115]
我々は,データセットを一般的な測度に置き換えた,和和クラスタリングの連続的なバージョンを示す。
我々は,離散データポイントの場合においても,新たなクラスタリングの局所的特徴を記述し,証明する。
論文 参考訳(メタデータ) (2021-04-28T13:35:17Z) - K-expectiles clustering [0.0]
本稿では,期待値に基づく分割クラスタリングアルゴリズムを提案する。
固定$tau$クラスタリングと適応$tau$クラスタリングの2つのスキームを提案します。
論文 参考訳(メタデータ) (2021-03-16T21:14:56Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。