論文の概要: Clustering Categorical Data: Soft Rounding k-modes
- arxiv url: http://arxiv.org/abs/2210.09640v1
- Date: Tue, 18 Oct 2022 07:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 16:10:01.846105
- Title: Clustering Categorical Data: Soft Rounding k-modes
- Title(参考訳): クラスタリングのカテゴリデータ:ソフト丸めkモード
- Authors: Surya Teja Gavva, Karthik C. S., and Sharath Punna
- Abstract要約: 分類データの教師なし学習のためのk-modesアルゴリズム(SoftModes)のソフトラウンドング変種を提案する。
我々は、SoftModesが合成データセットと実世界のデータセットの両方でうまく動作することを実証的に検証する。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the last three decades, researchers have intensively explored various
clustering tools for categorical data analysis. Despite the proposal of various
clustering algorithms, the classical k-modes algorithm remains a popular choice
for unsupervised learning of categorical data. Surprisingly, our first insight
is that in a natural generative block model, the k-modes algorithm performs
poorly for a large range of parameters. We remedy this issue by proposing a
soft rounding variant of the k-modes algorithm (SoftModes) and theoretically
prove that our variant addresses the drawbacks of the k-modes algorithm in the
generative model. Finally, we empirically verify that SoftModes performs well
on both synthetic and real-world datasets.
- Abstract(参考訳): 過去30年間、研究者は分類データ分析のための様々なクラスタリングツールを徹底的に研究してきた。
様々なクラスタリングアルゴリズムの提案にもかかわらず、古典的なkモードアルゴリズムは分類データの教師なし学習に広く使われている。
意外なことに、我々の最初の洞察は、自然生成ブロックモデルにおいて、k-modesアルゴリズムは幅広いパラメータに対して性能が低いことである。
我々は,k-modesアルゴリズム(softmodes)のソフトラウンド変種を提案し,理論的にk-modesアルゴリズムの欠点に対処することを証明し,この問題を解決した。
最後に、SoftModesが合成データセットと実世界のデータセットの両方でうまく動作することを実証的に検証する。
関連論文リスト
- A Modular Spatial Clustering Algorithm with Noise Specification [0.0]
細菌ファームアルゴリズムは、閉じた実験農場の細菌の成長にインスパイアされている。
他のクラスタリングアルゴリズムとは対照的に、我々のアルゴリズムはクラスタリング中に除外されるノイズの量を規定する機能も備えている。
論文 参考訳(メタデータ) (2023-09-18T18:05:06Z) - Best-Subset Selection in Generalized Linear Models: A Fast and
Consistent Algorithm via Splicing Technique [0.6338047104436422]
ベストサブセットセクションは、このタイプの問題の聖杯として広く見なされている。
軽度条件下での最適部分集合回復のためのアルゴリズムを提案し,提案した。
我々の実装は、一般的な変数選択ツールキットと比較して約4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-08-01T03:11:31Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Regularization and Optimization in Model-Based Clustering [4.096453902709292]
k-平均アルゴリズムの変種は、本質的に同じ球面ガウスの混合と、そのような分布から大きく逸脱するデータに適合する。
一般のGMMに対してより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせ、過度な適合を避ける。
これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
論文 参考訳(メタデータ) (2023-02-05T18:22:29Z) - Differentially-Private Hierarchical Clustering with Provable
Approximation Guarantees [79.59010418610625]
階層クラスタリングのための微分プライベート近似アルゴリズムについて検討する。
例えば、$epsilon$-DPアルゴリズムは入力データセットに対して$O(|V|2/epsilon)$-additiveエラーを示さなければならない。
本稿では,ブロックを正確に復元する1+o(1)$近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-31T19:14:30Z) - Bregman Power k-Means for Clustering Exponential Family Data [11.434503492579477]
我々は、ブレグマン発散の下でのハードクラスタリングに関する古典的な研究のアルゴリズム的進歩を橋渡しする。
ブレグマン発散のエレガントな性質は、単純で透明なアルゴリズムで閉形式更新を維持できる。
シミュレーション実験の徹底的な実証分析と降雨データに関するケーススタディを考察し,提案手法はガウス以外の様々なデータ設定において,既存のピア手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-06-22T06:09:54Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Kernel Clustering with Sigmoid-based Regularization for Efficient
Segmentation of Sequential Data [3.8326963933937885]
セグメント化は、データシーケンスを非線形で複雑な構造を持つ複数の重複しないセグメントに分割することを目的としている。
この問題を最適に解決するための一般的なカーネルは動的プログラミング(DP)である。
最適セグメンテーションを近似するために多くのアルゴリズムが提案されているが、それらの解の品質は保証されていない。
論文 参考訳(メタデータ) (2021-06-22T04:32:21Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Adversarial Examples for $k$-Nearest Neighbor Classifiers Based on
Higher-Order Voronoi Diagrams [69.4411417775822]
逆例は機械学習モデルにおいて広く研究されている現象である。
そこで本研究では,$k$-nearest 近傍分類の逆ロバスト性を評価するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:49:10Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。