論文の概要: New advances in enumerative biclustering algorithms with online
partitioning
- arxiv url: http://arxiv.org/abs/2003.04726v1
- Date: Sat, 7 Mar 2020 14:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:23:05.017622
- Title: New advances in enumerative biclustering algorithms with online
partitioning
- Title(参考訳): オンラインパーティショニングを用いた列挙型バイクラスタ化アルゴリズムの新展開
- Authors: Rosana Veroneze and Fernando J. Von Zuben
- Abstract要約: さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
- 参考スコア(独自算出の注目度): 80.22629846165306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper further extends RIn-Close_CVC, a biclustering algorithm capable of
performing an efficient, complete, correct and non-redundant enumeration of
maximal biclusters with constant values on columns in numerical datasets. By
avoiding a priori partitioning and itemization of the dataset, RIn-Close_CVC
implements an online partitioning, which is demonstrated here to guide to more
informative biclustering results. The improved algorithm is called
RIn-Close_CVC3, keeps those attractive properties of RIn-Close_CVC, as formally
proved here, and is characterized by: a drastic reduction in memory usage; a
consistent gain in runtime; additional ability to handle datasets with missing
values; and additional ability to operate with attributes characterized by
distinct distributions or even mixed data types. The experimental results
include synthetic and real-world datasets used to perform scalability and
sensitivity analyses. As a practical case study, a parsimonious set of relevant
and interpretable mixed-attribute-type rules is obtained in the context of
supervised descriptive pattern mining.
- Abstract(参考訳): さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
rin-close_cvcは、データセットの事前分割と項目化を避けることで、オンラインパーティショニングを実装している。
改良されたアルゴリズムはrin-close_cvc3と呼ばれ、ここで正式に証明されたようにrin-close_cvcの魅力的な特性を保持し、メモリ使用量の劇的な減少、実行時の一貫したゲイン、不足した値のデータセットを扱う追加の能力、異なるディストリビューションや混合データ型によって特徴付けられる属性で操作する能力が特徴である。
実験結果は、スケーラビリティと感度分析を行うために使用される合成および実世界のデータセットを含む。
実践的なケーススタディとして、教師付き記述型パターンマイニングの文脈において、関連性および解釈可能な混合属性型ルールの類似集合を得る。
関連論文リスト
- Spectral Clustering of Categorical and Mixed-type Data via Extra Graph
Nodes [0.0]
本稿では,数値情報と分類情報の両方をスペクトルクラスタリングアルゴリズムに組み込むための,より自然な方法について検討する。
データの属する可能性のある異なるカテゴリに対応する追加ノードの追加を提案し、それが解釈可能なクラスタリング対象関数に繋がることを示す。
この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムに繋がることを示す。
論文 参考訳(メタデータ) (2024-03-08T20:49:49Z) - Feature construction using explanations of individual predictions [0.0]
本稿では,予測モデルのインスタンスベース説明の集約に基づく探索空間の削減手法を提案する。
これらのグループに対する探索の削減が特徴構築の時間を大幅に短縮することを実証的に示す。
いくつかの分類器の分類精度を大幅に向上させ,大規模データセットにおいても提案する特徴構築の実現可能性を示した。
論文 参考訳(メタデータ) (2023-01-23T18:59:01Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Dataset Complexity Assessment Based on Cumulative Maximum Scaled Area
Under Laplacian Spectrum [38.65823547986758]
DCNNモデルをトレーニングする前にデータセットの複雑さを効果的に評価することで分類性能を予測することが重要である。
本稿では,ラプラシアンスペクトル(cmsAULS)の下での累積最大スケール領域という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-29T13:02:04Z) - Random projections and Kernelised Leave One Cluster Out
Cross-Validation: Universal baselines and evaluation tools for supervised
machine learning for materials properties [10.962094053749093]
1つのクラスタ・アウト・クロス・バリデーション(LOCO-CV)は、これまで目に見えない材料群を予測するアルゴリズムの性能を測定する方法として導入された。
コンポジションベース表現の徹底的な比較を行い,カーネル近似関数を用いてLOCO-CVアプリケーションの拡張を行う方法について検討する。
テストされたほとんどのタスクにおいて、ドメイン知識は機械学習のパフォーマンスを向上しないが、バンドギャップ予測は例外である。
論文 参考訳(メタデータ) (2022-06-17T15:39:39Z) - Adaptive Attribute and Structure Subspace Clustering Network [49.040136530379094]
自己表現型サブスペースクラスタリングネットワークを提案する。
まず、入力データサンプルを表現する自動エンコーダについて検討する。
そこで我々は, 局所的な幾何学的構造を捉えるために, 混合符号と対称構造行列を構築した。
構築された属性構造と行列に対して自己表現を行い、親和性グラフを学習する。
論文 参考訳(メタデータ) (2021-09-28T14:00:57Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z) - SECODA: Segmentation- and Combination-Based Detection of Anomalies [0.0]
SECODAは、連続的および分類的属性を含むデータセットの教師なし非パラメトリック異常検出アルゴリズムである。
このアルゴリズムはメモリのインプリントが低く、実行時のパフォーマンスはデータセットのサイズと線形にスケールする。
シミュレーションおよび実生活データセットによる評価は、このアルゴリズムが様々な種類の異常を識別できることを示している。
論文 参考訳(メタデータ) (2020-08-16T10:03:14Z) - Unsupervised Heterogeneous Coupling Learning for Categorical
Representation [50.1603042640492]
この研究は、結合間の相互作用を解き放ち、結合したカテゴリデータを表現するためのUNTIE(UNsupervised heTerogeneous couplIng lEarning)アプローチを導入する。
UNTIEは、ヘテロジニアスおよび階層的値-オブジェクト結合の教師なし表現学習のために、カーネルk平均目的関数を効率よく最適化する。
UNTIEで学習した表現は、最先端のカテゴリ表現やディープ表現モデルに対して大幅な性能改善を行う。
論文 参考訳(メタデータ) (2020-07-21T11:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。