論文の概要: Group Probability-Weighted Tree Sums for Interpretable Modeling of
Heterogeneous Data
- arxiv url: http://arxiv.org/abs/2205.15135v1
- Date: Mon, 30 May 2022 14:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 20:10:24.380007
- Title: Group Probability-Weighted Tree Sums for Interpretable Modeling of
Heterogeneous Data
- Title(参考訳): 不均一データの解釈モデルのための群確率重み木推定法
- Authors: Keyan Nasseri, Chandan Singh, James Duncan, Aaron Kornblith, Bin Yu
- Abstract要約: Group Probability-Weighted Tree Sums (G-FIGS) は、重要な臨床データセット上で最先端の予測性能を達成する。
G-FIGSは頸椎損傷をCARTで最大10%、FIGS単独で最大3%特定する特異性を高める。
すべてのコード、データ、モデルはGithubで公開されている。
- 参考スコア(独自算出の注目度): 9.99624617629557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning in high-stakes domains, such as healthcare, faces two
critical challenges: (1) generalizing to diverse data distributions given
limited training data while (2) maintaining interpretability. To address these
challenges, we propose an instance-weighted tree-sum method that effectively
pools data across diverse groups to output a concise, rule-based model. Given
distinct groups of instances in a dataset (e.g., medical patients grouped by
age or treatment site), our method first estimates group membership
probabilities for each instance. Then, it uses these estimates as instance
weights in FIGS (Tan et al. 2022), to grow a set of decision trees whose values
sum to the final prediction. We call this new method Group Probability-Weighted
Tree Sums (G-FIGS). G-FIGS achieves state-of-the-art prediction performance on
important clinical datasets; e.g., holding the level of sensitivity fixed at
92%, G-FIGS increases specificity for identifying cervical spine injury by up
to 10% over CART and up to 3% over FIGS alone, with larger gains at higher
sensitivity levels. By keeping the total number of rules below 16 in FIGS, the
final models remain interpretable, and we find that their rules match medical
domain expertise. All code, data, and models are released on Github.
- Abstract(参考訳): 医療などのハイテイク領域における機械学習は,(1)訓練データに制限された多種多様なデータ分布を一般化し,(2)解釈可能性を維持するという,2つの重要な課題に直面している。
これらの課題に対処するために,様々なグループにまたがるデータを効果的にプールし,簡潔でルールベースのモデルを出力するインスタンス重み付きツリーサム法を提案する。
データセット内の異なるインスタンス群(例えば、年齢または治療部位別に分類された医療患者)が与えられた場合、まず各インスタンスに対するグループメンバーシップの確率を推定する。
次に、これらの推定値をFIGS(Tan et al. 2022)の例量として使用し、最終的な予測に等しい値の一連の決定木を成長させる。
この新しい手法をG-FIGS(Group Probability-Weighted Tree Sums)と呼ぶ。
G-FIGSは、重要な臨床データセットに対して最先端の予測性能を達成し、例えば92%の感度を保った場合、G-FIGSはCARTより10%、FIGS単独では3%の精度で頚椎損傷を特定するための特異性を高める。
figのルールの総数を16以下に保つことで、最終的なモデルは解釈可能であり、そのルールが医学領域の専門知識と一致していることが分かる。
すべてのコード、データ、モデルがgithubで公開されている。
関連論文リスト
- Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Multinomial belief networks for healthcare data [0.0]
サンプルサイズと不確実性の増大のための深層生成モデルを提案する。
我々は、がんにおける有意義なDNA変異のクラスターを同定し、完全にデータ駆動的な方法で有意義なシグネチャを同定できることを示します。
論文 参考訳(メタデータ) (2023-11-28T16:12:50Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - How Do Graph Networks Generalize to Large and Diverse Molecular Systems? [10.690849483282564]
多くのデータセットが不足している複雑さの4つの側面を特定します。
本稿では,従来のOC20の最先端性能を16%向上させるGemNet-OCモデルを提案する。
我々の発見は、グラフニューラルネットワークがデータセットのサイズと多様性から同じように独立して機能するという共通の信念に挑戦する。
論文 参考訳(メタデータ) (2022-04-06T12:52:34Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Fast Interpretable Greedy-Tree Sums [8.268938983372452]
Fast Interpretable Greedy-Tree Sums (FIGS) は、CARTアルゴリズムを一般化し、要約において柔軟な数の木を成長させる。
G-FIGSは、ドメイン知識を反映し、感度や解釈性を犠牲にすることなく(CARTよりも20%も向上した)特異性を享受するCDIを導出する。
Bagging-FIGSは、現実世界のデータセット上でランダムなフォレストやXGBoostと競合するパフォーマンスを享受している。
論文 参考訳(メタデータ) (2022-01-28T04:50:37Z) - Evaluation of data imputation strategies in complex, deeply-phenotyped
data sets: the case of the EU-AIMS Longitudinal European Autism Project [0.0]
臨床データの欠落を補うために, 大規模(全N=764)データセットから異なる計算法を評価した。
参加者の重複する15のサブセットに160の臨床試験を分けて検討した。
論文 参考訳(メタデータ) (2022-01-20T21:50:38Z) - Generalizing electrocardiogram delineation: training convolutional
neural networks with synthetic data augmentation [63.51064808536065]
ECGのデライン化のための既存のデータベースは小さく、サイズやそれらが表す病態の配列に不足している。
まず、原データベースから抽出した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連のルールを考案した。
第二に、2つの新しいセグメンテーションに基づく損失関数が開発され、これは、正確な数の独立構造の予測を強制し、サンプル数の削減に焦点をあてて、より密接なセグメンテーション境界を創出することを目的としている。
論文 参考訳(メタデータ) (2021-11-25T10:11:41Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Cohort Bias Adaptation in Aggregated Datasets for Lesion Segmentation [0.8466401378239363]
マルチソースデータセット間でコホートバイアスを学習し,考慮するための一般化されたアフィン条件付けフレームワークを提案する。
我々は,コホートバイアス適応法により,プールしたデータセット上でのネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2021-08-02T08:32:57Z) - Can x2vec Save Lives? Integrating Graph and Language Embeddings for
Automatic Mental Health Classification [91.3755431537592]
グラフと言語の埋め込みモデル(metapath2vec と doc2vec)がリソース制限を回避する方法を示します。
統合されると、両データは高度に正確な予測を生成する(90%、偽陽性10%、偽陰性12%)。
これらの結果は、大規模ネットワークにおける行動と言語を同時に分析することの重要性の研究を拡大する。
論文 参考訳(メタデータ) (2020-01-04T20:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。