論文の概要: Unifying Information-Theoretic and Pair-Counting Clustering Similarity
- arxiv url: http://arxiv.org/abs/2511.03000v1
- Date: Tue, 04 Nov 2025 21:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.246033
- Title: Unifying Information-Theoretic and Pair-Counting Clustering Similarity
- Title(参考訳): 情報理論とペアカウンタクラスタリングの類似性を統一する
- Authors: Alexander J. Gates,
- Abstract要約: クラスタリング類似度尺度は通常、ペアカウントと情報理論の2つの主要なファミリーに分けられる。
本稿では,2つの相補的な観点から,これらの家族を統一する分析枠組みを開発する。
- 参考スコア(独自算出の注目度): 51.660331450043806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparing clusterings is central to evaluating unsupervised models, yet the many existing similarity measures can produce widely divergent, sometimes contradictory, evaluations. Clustering similarity measures are typically organized into two principal families, pair-counting and information-theoretic, reflecting whether they quantify agreement through element pairs or aggregate information across full cluster contingency tables. Prior work has uncovered parallels between these families and applied empirical normalization or chance-correction schemes, but their deeper analytical connection remains only partially understood. Here, we develop an analytical framework that unifies these families through two complementary perspectives. First, both families are expressed as weighted expansions of observed versus expected co-occurrences, with pair-counting arising as a quadratic, low-order approximation and information-theoretic measures as higher-order, frequency-weighted extensions. Second, we generalize pair-counting to $k$-tuple agreement and show that information-theoretic measures can be viewed as systematically accumulating higher-order co-assignment structure beyond the pairwise level. We illustrate the approaches analytically for the Rand index and Mutual Information, and show how other indices in each family emerge as natural extensions. Together, these views clarify when and why the two regimes diverge, relating their sensitivities directly to weighting and approximation order, and provide a principled basis for selecting, interpreting, and extending clustering similarity measures across applications.
- Abstract(参考訳): クラスタリングの比較は教師なしモデルの評価の中心であるが、既存の多くの類似性尺度は広くばらばらで、時には矛盾する評価をもたらす。
クラスタリング類似度尺度は通常、ペアカウントと情報理論の2つの主要なファミリーに分類され、それらが要素ペアを通じて合意を定量化するか、あるいは完全なクラスタの並行性テーブルにまたがる情報を集約するかどうかを反映している。
以前の研究は、これらの家族間の平行関係を明らかにし、経験的正規化やチャンス補正スキームを適用したが、その深い分析的関係は部分的には理解されていない。
本稿では,2つの相補的な観点から,これらの家族を統一する分析枠組みを開発する。
第一に、両家系は2次、低次近似と情報理論の2次、高次、周波数重み付き拡張として生じる、観測された共起物と予測される共起物の重み付き展開として表される。
第二に、ペアカウントを$k$-tuple agreementに一般化し、情報理論の測度を、ペアレベルを超えて高階の共割り当て構造を体系的に蓄積できることを示す。
本稿では,Rand index と Mutual Information を解析的に分析し,各家系の他の指標がどのように自然拡張として現れるかを示す。
これらの見解は、両者がいつ、なぜ分岐し、その感性を直接重み付けと近似順序に関連付けるのかを明らかにし、アプリケーション全体にわたってクラスタリングの類似度を選択、解釈、拡張するための原則的基盤を提供する。
関連論文リスト
- Measuring the Measures: Discriminative Capacity of Representational Similarity Metrics Across Model Families [8.045700364123645]
モデルファミリを分離する能力に基づいて,表現類似度を評価する枠組みを提案する。
信号検出理論,シルエット係数,ROC-AUCの3つの相補的分離性尺度を用いる。
我々は、メトリクスがより厳密なアライメント制約を課すにつれて、分離性が体系的に増加することを示す。
論文 参考訳(メタデータ) (2025-09-04T19:11:10Z) - Imputation-free and Alignment-free: Incomplete Multi-view Clustering Driven by Consensus Semantic Learning [65.75756724642932]
不完全なマルチビュークラスタリングでは、欠落したデータがビュー内のプロトタイプシフトとビュー間のセマンティック不整合を誘導する。
コンセンサスセマンティクス学習(FreeCSL)のためのIMVCフレームワークを提案する。
FreeCSLは、最先端の競合他社と比較して、IMVCタスクの信頼性と堅牢な割り当てを実現している。
論文 参考訳(メタデータ) (2025-05-16T12:37:10Z) - Similarity and Dissimilarity Guided Co-association Matrix Construction for Ensemble Clustering [22.280221709474105]
アンサンブルクラスタリングを実現するためにSDGCA(Simisity and Dissimilarity Guided Co-Association matrix)を提案する。
まず、各クラスタの品質を推定するために正規化アンサンブルエントロピーを導入し、この推定に基づいて類似度行列を構築した。
ランダムウォークを用いて、基底クラスタリングの高次近接を探索し、相似行列を構成する。
論文 参考訳(メタデータ) (2024-11-01T08:10:28Z) - HeNCler: Node Clustering in Heterophilous Graphs via Learned Asymmetric Similarity [48.62389920549271]
HeNClerは、重み付けされたカーネル特異値分解に基づいてクラスタリング固有の目的を最適化することで類似性グラフを学習する。
提案手法は,非対称類似グラフ上でのスペクトルクラスタリングを可能にし,有向グラフと無向グラフの両方に柔軟性を提供する。
論文 参考訳(メタデータ) (2024-05-27T11:04:05Z) - Advancing Relation Extraction through Language Probing with Exemplars
from Set Co-Expansion [1.450405446885067]
関係抽出(RE)は、構造化されていないテキストから構造化情報を自動的に抽出する重要なタスクである。
代表例を統合し,コセット展開を通じて多面的アプローチを提案する。
提案手法は,ほとんどの設定において,少なくとも1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-08-18T00:56:35Z) - Systematic compactification of the two-channel Kondo model. III. Extended field-theoretic renormalization group analysis [44.99833362998488]
複数チャネルの近藤モデルとそのコンパクト化バージョンについて,詳細な流れを計算した。
我々は、一貫したボゾン化-デボゾン化形式と従来のボゾン化-デボゾン化形式との相違について洞察を得る。
特に、並列な近藤相互作用の一貫した参照化をさらに正当化するために、再正規化-フロー論を用いている。
論文 参考訳(メタデータ) (2023-08-07T14:07:21Z) - Simple and Scalable Algorithms for Cluster-Aware Precision Medicine [0.0]
共同クラスタリングと埋め込みに対するシンプルでスケーラブルなアプローチを提案する。
この新しいクラスタ対応の埋め込みアプローチは、現在の共同埋め込みとクラスタリング法の複雑さと限界を克服する。
当社のアプローチでは,ユーザが希望するクラスタ数を選択する必要はなく,階層的にクラスタ化された埋め込みの解釈可能なデンドログラムを生成する。
論文 参考訳(メタデータ) (2022-11-29T19:27:26Z) - Comparing Cross Correlation-Based Similarities [1.0152838128195467]
実数値化されたマルチセットジャカードと偶然の指標に基づくマルチセットベースの相関関係を比較した。
結果は、パターン認識や深層学習だけでなく、一般的な科学的モデリングにも直接的な意味を持つ。
論文 参考訳(メタデータ) (2021-11-08T08:50:13Z) - Clustering Ensemble Meets Low-rank Tensor Approximation [50.21581880045667]
本稿では,複数のクラスタリングを組み合わせ,個々のクラスタリングよりも優れたパフォーマンスを実現するクラスタリングアンサンブルの問題について検討する。
本稿では,この問題をグローバルな視点から解くために,新しい低ランクテンソル近似法を提案する。
7つのベンチマークデータセットを用いた実験の結果,提案手法は12の最先端手法と比較して,クラスタリング性能のブレークスルーを達成した。
論文 参考訳(メタデータ) (2020-12-16T13:01:37Z) - Combining Task Predictors via Enhancing Joint Predictability [53.46348489300652]
そこで本研究では,目標予測能力に基づいて参照の関連性を測定し,その関連性を高めるための新しい予測器組合せアルゴリズムを提案する。
提案アルゴリズムはベイズフレームワークを用いて,すべての参照の関連性について共同で評価する。
視覚属性ランキングとマルチクラス分類シナリオから得られた実世界の7つのデータセットの実験に基づいて,本アルゴリズムが性能向上に寄与し,既存の予測器の組み合わせアプローチの適用範囲を広くすることを示した。
論文 参考訳(メタデータ) (2020-07-15T21:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。