論文の概要: Reliable data clustering with Bayesian community detection
- arxiv url: http://arxiv.org/abs/2510.15013v1
- Date: Thu, 16 Oct 2025 14:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.321518
- Title: Reliable data clustering with Bayesian community detection
- Title(参考訳): ベイジアンコミュニティ検出による信頼性データクラスタリング
- Authors: Magnus Neuman, Jelena Smiljanić, Martin Rosvall,
- Abstract要約: 研究者たちはモジュール構造を明らかにするために、クラスタリングの類似性データに依存している。
しかし、階層クラスタリング、k平均、WGCNAといった広く使われているクラスタリング手法では、基本モデル選択が欠如しており、ノイズの影響を受けやすい。
一般的な回避策は相関行列表現をスパースしてクラスタリング前にノイズを除去するが、この余分なステップは任意のしきい値を導入し、構造を歪め、信頼できない結果をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From neuroscience and genomics to systems biology and ecology, researchers rely on clustering similarity data to uncover modular structure. Yet widely used clustering methods, such as hierarchical clustering, k-means, and WGCNA, lack principled model selection, leaving them susceptible to noise. A common workaround sparsifies a correlation matrix representation to remove noise before clustering, but this extra step introduces arbitrary thresholds that can distort the structure and lead to unreliable results. To detect reliable clusters, we capitalize on recent advances in network science to unite sparsification and clustering with principled model selection. We test two Bayesian community detection methods, the Degree-Corrected Stochastic Block Model and the Regularized Map Equation, both grounded in the Minimum Description Length principle for model selection. In synthetic data, they outperform traditional approaches, detecting planted clusters under high-noise conditions and with fewer samples. Compared to WGCNA on gene co-expression data, the Regularized Map Equation identifies more robust and functionally coherent gene modules. Our results establish Bayesian community detection as a principled and noise-resistant framework for uncovering modular structure in high-dimensional data across fields.
- Abstract(参考訳): 神経科学やゲノム学からシステム生物学や生態学まで、研究者たちはモジュラー構造を明らかにするために類似したデータをクラスタリングすることに頼っている。
しかし、階層クラスタリングやk平均、WGCNAといった広く使われているクラスタリング手法には、基本モデル選択が欠如しており、ノイズの影響を受けやすい。
一般的な回避策は相関行列表現をスパースしてクラスタリング前にノイズを除去するが、この余分なステップは任意のしきい値を導入し、構造を歪め、信頼できない結果をもたらす。
信頼性の高いクラスタを検出するため,ネットワーク科学の最近の進歩に乗じて,スペーシフィケーションとクラスタリングを原理的モデル選択と組み合わせた。
モデル選択のための最小記述長の原理を基礎とした2つのベイズコミュニティ検出手法であるDegree-Corrected Stochastic Block Modelと正規化マップ方程式を検証した。
合成データでは、それらは従来のアプローチよりも優れており、高ノイズ条件下で植林されたクラスターを検出でき、サンプルは少ない。
遺伝子共発現データにおけるWGCNAと比較して、正規化マップ方程式はより堅牢で機能的に一貫性のある遺伝子モジュールを同定する。
この結果から,ハイ次元データのモジュラ構造を明らかにするための基本的・耐雑音性フレームワークとしてベイズコミュニティ検出が確立された。
関連論文リスト
- ReDiSC: A Reparameterized Masked Diffusion Model for Scalable Node Classification with Structured Predictions [64.17845687013434]
本稿では,構造化ノード分類のための構造拡散モデルであるReDiSCを提案する。
本稿では,ReDiSCが最先端のGNN,ラベル伝搬,拡散ベースラインと比較して,優れた,あるいは高い競争力を発揮することを示す。
特にReDiSCは、従来の構造化拡散法が計算制約によって失敗する大規模データセットに効果的にスケールする。
論文 参考訳(メタデータ) (2025-07-19T04:46:53Z) - Consistent spectral clustering in sparse tensor block models [0.0]
高階クラスタリングは、様々な分野で広く使われているマルチウェイデータセットでオブジェクトを分類することを目的としている。
本稿では,整数値の少ないデータテンソルに特化して設計されたテンソルブロックモデルを提案する。
ノイズ変動を緩和するためのトリミングステップを付加した単純なスペクトルクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-23T16:41:19Z) - scASDC: Attention Enhanced Structural Deep Clustering for Single-cell RNA-seq Data [5.234149080137045]
scRNA-seqデータに固有の高空間性および複雑なノイズパターンは、従来のクラスタリング手法において重要な課題である。
本稿では,深層クラスタリング手法であるアテンション強化構造深層埋め込みグラフクラスタリング(scASDC)を提案する。
scASDCはクラスタリングの精度と堅牢性を改善するために、複数の高度なモジュールを統合している。
論文 参考訳(メタデータ) (2024-08-09T09:10:36Z) - Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Confident Clustering via PCA Compression Ratio and Its Application to
Single-cell RNA-seq Analysis [4.511561231517167]
我々は,境界データポイントの影響を小さくするために,信頼度の高いクラスタリング手法を開発した。
本アルゴリズムは単一セルRNA-seqデータを用いて検証する。
単一セル解析における従来のクラスタリング法とは異なり、信頼性クラスタリングはパラメータの異なる選択下で高い安定性を示す。
論文 参考訳(メタデータ) (2022-05-19T20:46:49Z) - Amortized Probabilistic Detection of Communities in Graphs [39.56798207634738]
そこで我々は,アモータイズされたコミュニティ検出のためのシンプルなフレームワークを提案する。
我々はGNNの表現力と最近のアモータイズクラスタリングの手法を組み合わせる。
我々は、合成および実データセットに関するフレームワークから、いくつかのモデルを評価する。
論文 参考訳(メタデータ) (2020-10-29T16:18:48Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - Network Clustering Via Kernel-ARMA Modeling and the Grassmannian The
Brain-Network Case [6.78543866474958]
本稿では,時系列データにアノテートしたノードを持つネットワークを対象としたクラスタリングフレームワークを提案する。
このフレームワークは、状態クラスタリング、状態内のノードクラスタリング、サブネットワーク-状態系列の識別/追跡など、あらゆるタイプのネットワーククラスタリング問題に対処する。
論文 参考訳(メタデータ) (2020-02-18T19:48:38Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。