論文の概要: On the cohesion and separability of average-link for hierarchical agglomerative clustering
- arxiv url: http://arxiv.org/abs/2411.05097v1
- Date: Thu, 07 Nov 2024 19:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:53:43.629519
- Title: On the cohesion and separability of average-link for hierarchical agglomerative clustering
- Title(参考訳): 階層的凝集クラスタリングにおける平均リンクの凝集と分離性について
- Authors: Eduardo Sany Laber, Miguel Bastista,
- Abstract要約: 平均リンクは階層的凝集クラスタリングを構築するための最も一般的で効果的な方法の1つとして広く認識されている。
本稿では,距離空間における平均リンクの性能について,分離性と凝集度を捉えるいくつかの自然な基準について検討する。
また, 実データを用いた実験結果から, 結合性および分離性の両方が重要な目標である場合, 平均リンクが他の関連手法よりも良い選択であることが示唆された。
- 参考スコア(独自算出の注目度): 5.494111035517599
- License:
- Abstract: Average-link is widely recognized as one of the most popular and effective methods for building hierarchical agglomerative clustering. The available theoretical analyses show that this method has a much better approximation than other popular heuristics, as single-linkage and complete-linkage, regarding variants of Dasgupta's cost function [STOC 2016]. However, these analyses do not separate average-link from a random hierarchy and they are not appealing for metric spaces since every hierarchical clustering has a 1/2 approximation with regard to the variant of Dasgupta's function that is employed for dissimilarity measures [Moseley and Yang 2020]. In this paper, we present a comprehensive study of the performance of average-link in metric spaces, regarding several natural criteria that capture separability and cohesion and are more interpretable than Dasgupta's cost function and its variants. We also present experimental results with real datasets that, together with our theoretical analyses, suggest that average-link is a better choice than other related methods when both cohesion and separability are important goals.
- Abstract(参考訳): 平均リンクは階層的凝集クラスタリングを構築するための最も一般的で効果的な方法の1つとして広く認識されている。
利用可能な理論解析により、ダスガプタのコスト関数(STOC 2016)の変種に関して、この手法は、単リンクや完全リンクのような他の一般的なヒューリスティックよりもはるかに優れた近似を持つことが示された。
しかしながら、これらの解析は平均リンクをランダムな階層から切り離すことはなく、すべての階層的クラスタリングは、相似性測度 [Moseley and Yang 2020] に使用されるDasgupta関数の変種に関して1/2近似を持つので、計量空間に訴えることはない。
本稿では,距離空間における平均リンクの性能を包括的に研究し,分離性と凝集性を捉え,ダシュガプタのコスト関数とその変種よりも解釈しやすいいくつかの自然な基準について述べる。
また, 実データを用いた実験結果から, 結合性および分離性の両方が重要な目標である場合, 平均リンクが他の関連手法よりも良い選択であることが示唆された。
関連論文リスト
- Cluster-Aware Similarity Diffusion for Instance Retrieval [64.40171728912702]
拡散に基づく再ランク付け(diffusion-based re-level)は、隣り合うグラフで類似性の伝播を実行することで、インスタンスを検索する一般的な方法である。
本稿では,新しいクラスタ・アウェア類似性(CAS)拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-04T14:19:50Z) - New bounds on the cohesion of complete-link and other linkage methods for agglomeration clustering [10.409652277630133]
距離空間の完全リンクにより得られたクラスタリングの最大径に関する現在利用可能な境界を改善する。
我々の新しい境界の一つは、既存の境界とは対照的に、直径の近似の観点から、完全リンクと単一リンクを分離することができる。
論文 参考訳(メタデータ) (2024-05-02T01:39:30Z) - Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Uniform Concentration Bounds toward a Unified Framework for Robust
Clustering [21.789311405437573]
センターベースのクラスタリングの最近の進歩は、ロイドの有名な$k$-meansアルゴリズムの欠点によって改善され続けている。
様々な手法は、ローカル・ミニマ(英語版)の貧弱さ、異常値に対する感度、ユークリッドの対応に適さないデータに対処しようとする。
本稿では,一般的な相似性尺度に基づく中心クラスタリングのための密結合型ロバストフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-27T03:43:44Z) - Fairness, Semi-Supervised Learning, and More: A General Framework for
Clustering with Stochastic Pairwise Constraints [32.19047459493177]
我々は,いくつかの本質的クラスタリングの目的に組み込んだ,新しいemphstochastic pairwise制約系を導入する。
これらの制約は,半教師付き学習における emphinvidual fairness や emphmust-link 制約など,興味をそそるアプリケーションの集合を簡潔にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-02T20:27:58Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Unsupervised Heterogeneous Coupling Learning for Categorical
Representation [50.1603042640492]
この研究は、結合間の相互作用を解き放ち、結合したカテゴリデータを表現するためのUNTIE(UNsupervised heTerogeneous couplIng lEarning)アプローチを導入する。
UNTIEは、ヘテロジニアスおよび階層的値-オブジェクト結合の教師なし表現学習のために、カーネルk平均目的関数を効率よく最適化する。
UNTIEで学習した表現は、最先端のカテゴリ表現やディープ表現モデルに対して大幅な性能改善を行う。
論文 参考訳(メタデータ) (2020-07-21T11:23:27Z) - Hierarchical Correlation Clustering and Tree Preserving Embedding [3.821323038670061]
本稿では,よく知られた相関クラスタリングを拡張する階層的相関クラスタリング手法を提案する。
本稿では,このような階層的相関クラスタリングを用いた教師なし表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-18T17:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。