論文の概要: Sparse Convex Biclustering
- arxiv url: http://arxiv.org/abs/2601.01757v1
- Date: Mon, 05 Jan 2026 03:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.749944
- Title: Sparse Convex Biclustering
- Title(参考訳): Sparse Convex Biclustering
- Authors: Jiakun Jiang, Dewei Xiang, Chenliang Gu, Wei Liu, Binhuan Wang,
- Abstract要約: ビクラスタリングロバストネスは、データマトリックスの行と列を同時にクラスタリングするための機械学習技術である。
本稿では,両クラスタリング過程における雑音をペナルティ化し,精度と安定性を両立させる手法を提案する。
- 参考スコア(独自算出の注目度): 3.067019303674385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biclustering is an essential unsupervised machine learning technique for simultaneously clustering rows and columns of a data matrix, with widespread applications in genomics, transcriptomics, and other high-dimensional omics data. Despite its importance, existing biclustering methods struggle to meet the demands of modern large-scale datasets. The challenges stem from the accumulation of noise in high-dimensional features, the limitations of non-convex optimization formulations, and the computational complexity of identifying meaningful biclusters. These issues often result in reduced accuracy and stability as the size of the dataset increases. To overcome these challenges, we propose Sparse Convex Biclustering (SpaCoBi), a novel method that penalizes noise during the biclustering process to improve both accuracy and robustness. By adopting a convex optimization framework and introducing a stability-based tuning criterion, SpaCoBi achieves an optimal balance between cluster fidelity and sparsity. Comprehensive numerical studies, including simulations and an application to mouse olfactory bulb data, demonstrate that SpaCoBi significantly outperforms state-of-the-art methods in accuracy. These results highlight SpaCoBi as a robust and efficient solution for biclustering in high-dimensional and large-scale datasets.
- Abstract(参考訳): ビクラスタリングは、データマトリックスの行と列を同時にクラスタリングするための、教師なしの機械学習技術であり、ゲノミクス、トランスクリプトミクス、その他の高次元オミクスデータに広く応用されている。
その重要性にもかかわらず、既存のビクラスタリング手法は、現代の大規模データセットの要求を満たすのに苦労している。
この課題は、高次元特徴量における雑音の蓄積、非凸最適化の定式化の限界、意味のある二クラスターを識別する計算の複雑さに起因している。
これらの問題は、データセットのサイズが大きくなるにつれて、精度と安定性が低下することが多い。
これらの課題を克服するために,両クラスタリングプロセス中にノイズをペナルティ化し,精度とロバスト性を両立させるSparse Convex Biclustering (SpaCoBi)を提案する。
凸最適化フレームワークを採用し,安定性に基づくチューニング基準を導入することにより,クラスタの忠実度とスパシティの最適なバランスを実現する。
シミュレーションやマウス嗅球データへの応用を含む総合的な数値研究により、SpaCoBiは最先端の手法を精度で大幅に上回っていることが示された。
これらの結果は、高次元および大規模データセットにおける2クラスタリングのための堅牢で効率的なソリューションとして、SpaCoBiを強調している。
関連論文リスト
- Convex Clustering Redefined: Robust Learning with the Median of Means Estimator [22.614296433333106]
コンベックスクラスタリングをMedian of Means (MoM) 推定器と統合するロバストなアプローチを導入する。
提案手法は,特に大規模データセットにおいて,性能と効率を両立させる。
論文 参考訳(メタデータ) (2025-11-12T21:16:53Z) - Exact and Heuristic Algorithms for Constrained Biclustering [0.0]
コクラスタリング(co-clustering)または双方向クラスタリング( two-way clustering)とも呼ばれるビクラスタリングは、データマトリックスの行と列を同時にパーティショニングすることで、コヒーレントパターンによるサブマトリクスを明らかにする。
我々は、オブジェクトが同一または異なるビクラスタに属するべきか否かを規定する制約付きビクラスタリング、すなわち、マスタリンクとナントリンクの制約について研究する。
論文 参考訳(メタデータ) (2025-08-07T15:29:22Z) - Strong bounds for large-scale Minimum Sum-of-Squares Clustering [0.45880283710344055]
Minimum Sum-of-Squares Clustering (MSSC)は、最も広く使われているクラスタリング手法の1つである。
MSSCは、データポイントとそれに対応するクラスタセントロイド間の合計2乗ユークリッド距離を最小化することを目的としている。
最適性ギャップによるMSSCソリューションの検証手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T13:40:00Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Toward Efficient and Incremental Spectral Clustering via Parametric
Spectral Clustering [2.44755919161855]
スペクトルクラスタリングは、非線形分離可能なデータを効果的にクラスタリングするための一般的な方法である。
本稿では、パラメトリックスペクトルクラスタリング(PSC)と呼ばれる新しい手法を提案する。
PSCは、ビッグデータとリアルタイムシナリオに関連する課題に対処する。
論文 参考訳(メタデータ) (2023-11-14T01:26:20Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Fast and Interpretable Consensus Clustering via Minipatch Learning [0.0]
IMPACC: Interpretable MiniPatch Adaptive Consensus Clustering を開発した。
我々は、信頼性と計算コストの両面で改善された観測のための適応型サンプリング手法を開発した。
その結果,より正確で解釈可能なクラスタソリューションが得られた。
論文 参考訳(メタデータ) (2021-10-05T22:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。