論文の概要: Cross-Cluster Weighted Forests
- arxiv url: http://arxiv.org/abs/2105.07610v1
- Date: Mon, 17 May 2021 04:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 01:25:03.119286
- Title: Cross-Cluster Weighted Forests
- Title(参考訳): クロスクラスター重林
- Authors: Maya Ramchandran, Rajarshi Mukherjee, and Giovanni Parmigiani
- Abstract要約: この記事では、単一のデータセット内のクラスタで訓練されたランダムフォレスト学習者を機能分布の異種性でアンサンブルする効果を検討する。
従来のランダムフォレストアルゴリズムに比べて,k平均等のアルゴリズムによって決定されたクラスタ上で訓練された森林のアンサンブルの構築精度と一般化性が著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 2.099922236065961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting machine learning algorithms to better handle the presence of natural
clustering or batch effects within training datasets is imperative across a
wide variety of biological applications. This article considers the effect of
ensembling Random Forest learners trained on clusters within a single dataset
with heterogeneity in the distribution of the features. We find that
constructing ensembles of forests trained on clusters determined by algorithms
such as k-means results in significant improvements in accuracy and
generalizability over the traditional Random Forest algorithm. We denote our
novel approach as the Cross-Cluster Weighted Forest, and examine its robustness
to various data-generating scenarios and outcome models. Furthermore, we
explore the influence of the data-partitioning and ensemble weighting
strategies on conferring the benefits of our method over the existing paradigm.
Finally, we apply our approach to cancer molecular profiling and gene
expression datasets that are naturally divisible into clusters and illustrate
that our approach outperforms classic Random Forest. Code and supplementary
material are available at https://github.com/m-ramchandran/cross-cluster.
- Abstract(参考訳): トレーニングデータセット内の自然なクラスタリングやバッチエフェクトの存在をよりよく扱うために、機械学習アルゴリズムを適用することは、さまざまな生物学的応用において必須である。
本稿では,特徴分布に不均一性をもつ単一データセット内のクラスタ上で学習したランダムフォレスト学習者の影響について考察する。
従来のランダムフォレストアルゴリズムに比べて,k平均等のアルゴリズムによって決定されたクラスタ上で訓練された森林のアンサンブルの構築精度と一般化性が著しく向上することがわかった。
我々は,新しいアプローチをクロスクラスタ重み付き森林として表現し,データ生成シナリオと結果モデルに対するロバスト性を検討する。
さらに,本手法の既存パラダイムに対するメリットを提示する上で,データ分割およびアンサンブル重み付け戦略が与える影響について検討する。
最後に,本研究のアプローチを,自然にクラスタに分割可能ながん分子プロファイリングと遺伝子発現データセットに適用し,従来のランダムフォレストよりも優れていることを示す。
コードと補足資料はhttps://github.com/m-ramchandran/cross-cluster.comで入手できる。
関連論文リスト
- Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - Enabling Mixed Effects Neural Networks for Diverse, Clustered Data Using Monte Carlo Methods [9.035959289139102]
混合効果ニューラルネットワーク(MENN)はクラスタ固有の「ランダム効果」とクラスタ不変の「固定効果」を分離する
本稿では,モンテカルロ法による一般化混合効果ニューラルネットワークの学習手法であるMC-GMENNを提案する。
論文 参考訳(メタデータ) (2024-07-01T09:24:04Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Federated unsupervised random forest for privacy-preserving patient
stratification [0.4499833362998487]
教師なしランダムフォレストを用いた新しいマルチオミクスクラスタリング手法を提案する。
我々は、機械学習ベンチマークデータセットとThe Cancer Genome Atlasのがんデータに対するアプローチを検証する。
本手法は病気のサブタイプに関して最先端の手法と競合するが,同時にクラスタの解釈可能性も大幅に向上する。
論文 参考訳(メタデータ) (2024-01-29T12:04:14Z) - Improving Link Prediction in Social Networks Using Local and Global
Features: A Clustering-based Approach [0.0]
本稿では,リンク予測問題に対処するため,第1グループと第2グループを組み合わせた手法を提案する。
提案手法は,まずノードの位置と動的挙動に関連する特徴を同定する。
そして、計算された類似度尺度に基づいて、サブスペースクラスタリングアルゴリズムをグループ社会オブジェクトに適用する。
論文 参考訳(メタデータ) (2023-05-17T14:45:02Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Unsupervised Multi-view Clustering by Squeezing Hybrid Knowledge from
Cross View and Each View [68.88732535086338]
本稿では,適応グラフ正規化に基づくマルチビュークラスタリング手法を提案する。
5つの多視点ベンチマークの実験結果から,提案手法が他の最先端手法をクリアマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-08-23T08:25:06Z) - Siloed Federated Learning for Multi-Centric Histopathology Datasets [0.17842332554022694]
本稿では,医学領域における深層学習アーキテクチャのための新しいフェデレーション学習手法を提案する。
局所統計バッチ正規化(BN)層が導入され、協調的に訓練されるが中心に固有のモデルが作られる。
本研究では,Camelyon16およびCamelyon17データセットから抽出した腫瘍組織像の分類法についてベンチマークを行った。
論文 参考訳(メタデータ) (2020-08-17T15:49:30Z) - Elastic Coupled Co-clustering for Single-Cell Genomic Data [0.0]
シングルセル技術により、前例のない解像度でゲノム機能をプロファイルできるようになった。
データ統合はクラスタリングアルゴリズムのパフォーマンスを向上させる可能性がある。
本研究では,教師なしの移動学習フレームワークで問題を定式化する。
論文 参考訳(メタデータ) (2020-03-29T08:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。