論文の概要: Weighted Sum-of-Trees Model for Clustered Data
- arxiv url: http://arxiv.org/abs/2602.02931v1
- Date: Tue, 03 Feb 2026 00:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.148983
- Title: Weighted Sum-of-Trees Model for Clustered Data
- Title(参考訳): クラスタデータに対する重み付き終末モデル
- Authors: Kevin McCoy, Zachary Wooten, Katarzyna Tomczak, Christine B. Peterson,
- Abstract要約: そこで本研究では,サンプル群毎に決定木を学習する軽量な要約木モデルを提案する。
我々は,様々なシミュレーション環境において,従来の決定木や無作為林よりも優れたモデルを示す。
The Cancer Genome Atlasの肉腫コホートから得られた実世界のデータについて紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustered data, which arise when observations are nested within groups, are incredibly common in clinical, education, and social science research. Traditionally, a linear mixed model, which includes random effects to account for within-group correlation, would be used to model the observed data and make new predictions on unseen data. Some work has been done to extend the mixed model approach beyond linear regression into more complex and non-parametric models, such as decision trees and random forests. However, existing methods are limited to using the global fixed effects for prediction on data from out-of-sample groups, effectively assuming that all clusters share a common outcome model. We propose a lightweight sum-of-trees model in which we learn a decision tree for each sample group. We combine the predictions from these trees using weights so that out-of-sample group predictions are more closely aligned with the most similar groups in the training data. This strategy also allows for inference on the similarity across groups in the outcome prediction model, as the unique tree structures and variable importances for each group can be directly compared. We show our model outperforms traditional decision trees and random forests in a variety of simulation settings. Finally, we showcase our method on real-world data from the sarcoma cohort of The Cancer Genome Atlas, where patient samples are grouped by sarcoma subtype.
- Abstract(参考訳): 集団内で観測がネストされたときに発生するクラスタ化されたデータは、臨床、教育、社会科学研究で驚くほど一般的である。
伝統的に、グループ内相関を考慮したランダムな効果を含む線形混合モデルは、観測されたデータをモデル化し、目に見えないデータに対して新しい予測を行うために使用される。
線形回帰を超えた混合モデルアプローチを、決定木やランダムフォレストのようなより複雑で非パラメトリックなモデルに拡張するために、いくつかの研究がなされている。
しかし、既存の手法は、すべてのクラスタが共通の結果モデルを共有していると仮定して、サンプル外のグループからのデータの予測にグローバルな固定効果を使用するに限られている。
本稿では,各サンプル群に対して決定木を学習する軽量な要約木モデルを提案する。
これらの木からの予測を重みを使って組み合わせることで、トレーニングデータの最も類似したグループとより密に一致できるようにします。
この戦略はまた、結果予測モデルにおけるグループ間の類似性に関する推論を可能にし、各グループに対する固有のツリー構造と変数の重要度を直接比較することができる。
我々は,様々なシミュレーション環境において,従来の決定木や無作為林よりも優れたモデルを示す。
最後に,The Cancer Genome Atlasの肉腫コホートから得られた実世界のデータを用いて,患者サンプルをサルコマサブタイプで分類した。
関連論文リスト
- Learning Decision Trees as Amortized Structure Inference [59.65621207449269]
本稿では,予測決定木アンサンブルを学習するためのハイブリッドアモータイズされた構造推論手法を提案する。
提案手法であるDT-GFNは,標準分類ベンチマークにおける最先端決定木やディープラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-10T07:05:07Z) - Challenges learning from imbalanced data using tree-based models: Prevalence estimates systematically depend on hyperparameters and can be upwardly biased [0.0]
この方法で無作為林を校正することは、有病率推定を含む負の結果をもたらすことを示す。
決定木が多数派に偏っているという広く信じられているにもかかわらず、実際には少数派に偏っている。
論文 参考訳(メタデータ) (2024-12-17T19:38:29Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Cross-Cluster Weighted Forests [4.9873153106566575]
本稿では,特徴分布に不均一性のあるデータセット内のクラスタ上で学習したランダムフォレスト学習者のアンサンブル効果について考察する。
従来のランダムフォレストアルゴリズムに比べて,k平均等のアルゴリズムによって決定されたクラスタ上で訓練された森林のアンサンブルの構築精度と一般化性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-05-17T04:58:29Z) - Group Testing with a Graph Infection Spread Model [61.48558770435175]
感染は個人間のつながりを通じて広がり、その結果、確率的クラスター形成構造と、個人に対する非i.d.感染状態が生じる。
そこで本研究では,既知の確率的感染拡散モデルを利用する2段階のサンプルグループテストアルゴリズムを提案する。
その結果, 感染率が高い場合でも, 集団検査により必要な検査数を大幅に削減できることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T18:51:32Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。