論文の概要: HBIC: A Biclustering Algorithm for Heterogeneous Datasets
- arxiv url: http://arxiv.org/abs/2408.13217v1
- Date: Fri, 23 Aug 2024 16:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 14:20:44.785221
- Title: HBIC: A Biclustering Algorithm for Heterogeneous Datasets
- Title(参考訳): HBIC:不均一データセットのためのビクラスタリングアルゴリズム
- Authors: Adán José-García, Julie Jacques, Clément Chauvet, Vincent Sobanski, Clarisse Dhaenens,
- Abstract要約: Biclusteringは、データマトリックス内で行と列を同時にクラスタすることを目的とした、教師なしの機械学習アプローチである。
複素異種データから有意義なビクラスタを発見することが可能な,HBICと呼ばれるビクラスタリング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biclustering is an unsupervised machine-learning approach aiming to cluster rows and columns simultaneously in a data matrix. Several biclustering algorithms have been proposed for handling numeric datasets. However, real-world data mining problems often involve heterogeneous datasets with mixed attributes. To address this challenge, we introduce a biclustering approach called HBIC, capable of discovering meaningful biclusters in complex heterogeneous data, including numeric, binary, and categorical data. The approach comprises two stages: bicluster generation and bicluster model selection. In the initial stage, several candidate biclusters are generated iteratively by adding and removing rows and columns based on the frequency of values in the original matrix. In the second stage, we introduce two approaches for selecting the most suitable biclusters by considering their size and homogeneity. Through a series of experiments, we investigated the suitability of our approach on a synthetic benchmark and in a biomedical application involving clinical data of systemic sclerosis patients. The evaluation comparing our method to existing approaches demonstrates its ability to discover high-quality biclusters from heterogeneous data. Our biclustering approach is a starting point for heterogeneous bicluster discovery, leading to a better understanding of complex underlying data structures.
- Abstract(参考訳): Biclusteringは、データマトリックス内で行と列を同時にクラスタすることを目的とした、教師なしの機械学習アプローチである。
数値データセットを扱うために、いくつかのビクラスタリングアルゴリズムが提案されている。
しかし、実世界のデータマイニングの問題は、しばしば混合属性を持つ異種データセットを含む。
この課題に対処するために、HBICと呼ばれる二クラスタ化アプローチを導入し、数値、バイナリ、カテゴリデータを含む複素異種データに有意義な二クラスタを発見できる。
このアプローチは、ビクラスタ生成とビクラスタモデル選択の2つのステージで構成されている。
初期段階では、元の行列の値の頻度に基づいて行や列を追加・削除することにより、複数の候補ビクラスタを反復的に生成する。
第2段階では,そのサイズと均一性を考慮し,最も適切な二クラスターを選択するための2つのアプローチを導入する。
全身性硬化症患者の臨床データを含むバイオメディカル・アプリケーションにおいて, 本手法の総合的ベンチマークへの適合性について検討した。
提案手法を既存手法と比較することにより,異種データから高品質なビクラスタを発見することができることを示す。
我々のビクラスタリングアプローチは異種ビクラスタ発見の出発点であり、複雑な基盤となるデータ構造をよりよく理解します。
関連論文リスト
- Single-cell Multi-view Clustering via Community Detection with Unknown
Number of Clusters [64.31109141089598]
シングルセルデータに適した,革新的なマルチビュークラスタリング手法である scUNC を導入する。
scUNCは、事前に定義された数のクラスタを必要とせずに、異なるビューからの情報をシームレスに統合する。
3つの異なる単一セルデータセットを用いて,SCUNCの総合評価を行った。
論文 参考訳(メタデータ) (2023-11-28T08:34:58Z) - Clustering Optimisation Method for Highly Connected Biological Data [0.0]
接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。
この作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。
論文 参考訳(メタデータ) (2022-08-08T17:33:32Z) - Biclustering Algorithms Based on Metaheuristics: A Review [0.0]
Biclusteringは、データマトリックス内の行と列を同時にクラスタする、教師なしの機械学習技術である。
重要な双クラスターを見つけることは最適化問題として定式化できるNPハード問題である。
複雑な最適化問題を妥当な時間で解く探索能力のために、様々なメタヒューリスティックが双クラスタリング問題に適用されている。
論文 参考訳(メタデータ) (2022-03-30T12:16:32Z) - Clustering Ensemble Meets Low-rank Tensor Approximation [50.21581880045667]
本稿では,複数のクラスタリングを組み合わせ,個々のクラスタリングよりも優れたパフォーマンスを実現するクラスタリングアンサンブルの問題について検討する。
本稿では,この問題をグローバルな視点から解くために,新しい低ランクテンソル近似法を提案する。
7つのベンチマークデータセットを用いた実験の結果,提案手法は12の最先端手法と比較して,クラスタリング性能のブレークスルーを達成した。
論文 参考訳(メタデータ) (2020-12-16T13:01:37Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Biclustering with Alternating K-Means [5.089110111757978]
本稿では,経験的クラスタリングリスクを最小限に抑えるというアイデアに基づいて,ビクラスタリング問題の新たな定式化について述べる。
カラムと行間のk-meansクラスタリングアルゴリズムの適応バージョンを交互に使用することにより,局所最小値を求める,単純で斬新なアルゴリズムを提案する。
その結果,本アルゴリズムは,データ中の有意義な構造を検知し,様々な設定や状況において競合する2クラスタリング手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-09-09T20:15:24Z) - A Novel Granular-Based Bi-Clustering Method of Deep Mining the
Co-Expressed Genes [76.84066556597342]
ビクラスタリング法は、サンプル(遺伝子)のサブセットが試験条件下で協調的に制御されるバイクラスタをマイニングするために用いられる。
残念ながら、従来の二クラスタ法はそのような二クラスタを発見するのに完全には効果がない。
本稿では,グラニュラーコンピューティングの理論を取り入れた新しい2クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-12T02:04:40Z) - Bi-objective Optimization of Biclustering with Binary Data [0.0]
クラスタリングは、いくつかの類似性基準に従って、データオブジェクトをクラスタと呼ばれるサブセットに分割する。
本稿では,クラスタの重複を許容する準クラスタリングについて論じる。
ビクラスタリングは、オブジェクトとフィーチャーを同時にグループ化し、特定のオブジェクトのグループに特別な機能のグループがあるようにします。
論文 参考訳(メタデータ) (2020-02-09T21:49:26Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。