論文の概要: Cross-Cluster Weighted Forests
- arxiv url: http://arxiv.org/abs/2105.07610v3
- Date: Tue, 29 Oct 2024 02:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 02:59:48.835508
- Title: Cross-Cluster Weighted Forests
- Title(参考訳): クロスクラスター重林
- Authors: Maya Ramchandran, Rajarshi Mukherjee, Giovanni Parmigiani,
- Abstract要約: 本稿では,特徴分布に不均一性をもつ単一データセット内のクラスタ上で学習したランダムフォレスト学習者のアンサンブル効果について考察する。
従来のランダムフォレストアルゴリズムに比べて,k平均等のアルゴリズムによって決定されたクラスタ上で訓練された森林のアンサンブルの構築精度と一般化性が著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 4.9873153106566575
- License:
- Abstract: Adapting machine learning algorithms to better handle the presence of clusters or batch effects within training datasets is important across a wide variety of biological applications. This article considers the effect of ensembling Random Forest learners trained on clusters within a single dataset with heterogeneity in the distribution of the features. We find that constructing ensembles of forests trained on clusters determined by algorithms such as k-means results in significant improvements in accuracy and generalizability over the traditional Random Forest algorithm. We begin with a theoretical exploration of the benefits of our novel approach, denoted as the Cross-Cluster Weighted Forest, and subsequently empirically examine its robustness to various data-generating scenarios and outcome models. Furthermore, we explore the influence of the data-partitioning and ensemble weighting strategies the benefits of our method over the existing paradigm. Finally, we apply our approach to cancer molecular profiling and gene expression datasets that are naturally divisible into clusters and illustrate that our approach outperforms the classic Random Forest. The code and supplementary material are available at https://github.com/m-ramchandran/cross-cluster.
- Abstract(参考訳): 機械学習アルゴリズムをトレーニングデータセット内のクラスタやバッチエフェクトの存在をよりよく扱うように適応させることは、さまざまな生物学的アプリケーションにおいて重要である。
本稿では,特徴分布に不均一性をもつ単一データセット内のクラスタ上で学習したランダムフォレスト学習者のアンサンブル効果について考察する。
従来のランダムフォレストアルゴリズムに比べて,k平均等のアルゴリズムによって決定されたクラスタ上で訓練された森林のアンサンブルの構築精度と一般化性が著しく向上することがわかった。
まず,新たなアプローチのメリットを理論的に探求し,それをクロス・クラスタ・ウェイト・フォレスト(Cross-Cluster Weighted Forest)と表現し,その後,様々なデータ生成シナリオや結果モデルに対するロバスト性を実証的に検証する。
さらに,データ分割とアンサンブルの重み付け戦略が既存パラダイムに対する手法の利点に与える影響についても検討する。
最後に,本研究のアプローチを,自然にクラスタに分割可能ながん分子プロファイリングと遺伝子発現データセットに適用し,従来のランダムフォレストよりも優れていることを示す。
コードと補足資料はhttps://github.com/m-ramchandran/cross-cluster.comで公開されている。
関連論文リスト
- Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - Enabling Mixed Effects Neural Networks for Diverse, Clustered Data Using Monte Carlo Methods [9.035959289139102]
混合効果ニューラルネットワーク(MENN)はクラスタ固有の「ランダム効果」とクラスタ不変の「固定効果」を分離する
本稿では,モンテカルロ法による一般化混合効果ニューラルネットワークの学習手法であるMC-GMENNを提案する。
論文 参考訳(メタデータ) (2024-07-01T09:24:04Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Federated unsupervised random forest for privacy-preserving patient
stratification [0.4499833362998487]
教師なしランダムフォレストを用いた新しいマルチオミクスクラスタリング手法を提案する。
我々は、機械学習ベンチマークデータセットとThe Cancer Genome Atlasのがんデータに対するアプローチを検証する。
本手法は病気のサブタイプに関して最先端の手法と競合するが,同時にクラスタの解釈可能性も大幅に向上する。
論文 参考訳(メタデータ) (2024-01-29T12:04:14Z) - Improving Link Prediction in Social Networks Using Local and Global
Features: A Clustering-based Approach [0.0]
本稿では,リンク予測問題に対処するため,第1グループと第2グループを組み合わせた手法を提案する。
提案手法は,まずノードの位置と動的挙動に関連する特徴を同定する。
そして、計算された類似度尺度に基づいて、サブスペースクラスタリングアルゴリズムをグループ社会オブジェクトに適用する。
論文 参考訳(メタデータ) (2023-05-17T14:45:02Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Unsupervised Multi-view Clustering by Squeezing Hybrid Knowledge from
Cross View and Each View [68.88732535086338]
本稿では,適応グラフ正規化に基づくマルチビュークラスタリング手法を提案する。
5つの多視点ベンチマークの実験結果から,提案手法が他の最先端手法をクリアマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-08-23T08:25:06Z) - Siloed Federated Learning for Multi-Centric Histopathology Datasets [0.17842332554022694]
本稿では,医学領域における深層学習アーキテクチャのための新しいフェデレーション学習手法を提案する。
局所統計バッチ正規化(BN)層が導入され、協調的に訓練されるが中心に固有のモデルが作られる。
本研究では,Camelyon16およびCamelyon17データセットから抽出した腫瘍組織像の分類法についてベンチマークを行った。
論文 参考訳(メタデータ) (2020-08-17T15:49:30Z) - Elastic Coupled Co-clustering for Single-Cell Genomic Data [0.0]
シングルセル技術により、前例のない解像度でゲノム機能をプロファイルできるようになった。
データ統合はクラスタリングアルゴリズムのパフォーマンスを向上させる可能性がある。
本研究では,教師なしの移動学習フレームワークで問題を定式化する。
論文 参考訳(メタデータ) (2020-03-29T08:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。