論文の概要: Subgroup Discovery with the Cox Model
- arxiv url: http://arxiv.org/abs/2512.20762v1
- Date: Tue, 23 Dec 2025 20:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.597983
- Title: Subgroup Discovery with the Cox Model
- Title(参考訳): Coxモデルによるサブグループ発見
- Authors: Zachary Izzo, Iain Melvin,
- Abstract要約: 生存分析におけるサブグループ発見の問題点について検討する。
目標は、Coxモデルが非常に正確であるデータの解釈可能なサブセットを見つけることである。
我々は、Coxサブグループ発見問題に対して合計8つのアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 3.6443246757008723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of subgroup discovery for survival analysis, where the goal is to find an interpretable subset of the data on which a Cox model is highly accurate. Our work is the first to study this particular subgroup problem, for which we make several contributions. Subgroup discovery methods generally require a "quality function" in order to sift through and select the most advantageous subgroups. We first examine why existing natural choices for quality functions are insufficient to solve the subgroup discovery problem for the Cox model. To address the shortcomings of existing metrics, we introduce two technical innovations: the *expected prediction entropy (EPE)*, a novel metric for evaluating survival models which predict a hazard function; and the *conditional rank statistics (CRS)*, a statistical object which quantifies the deviation of an individual point to the distribution of survival times in an existing subgroup. We study the EPE and CRS theoretically and show that they can solve many of the problems with existing metrics. We introduce a total of eight algorithms for the Cox subgroup discovery problem. The main algorithm is able to take advantage of both the EPE and the CRS, allowing us to give theoretical correctness results for this algorithm in a well-specified setting. We evaluate all of the proposed methods empirically on both synthetic and real data. The experiments confirm our theory, showing that our contributions allow for the recovery of a ground-truth subgroup in well-specified cases, as well as leading to better model fit compared to naively fitting the Cox model to the whole dataset in practical settings. Lastly, we conduct a case study on jet engine simulation data from NASA. The discovered subgroups uncover known nonlinearities/homogeneity in the data, and which suggest design choices which have been mirrored in practice.
- Abstract(参考訳): 生存分析のためのサブグループ探索の課題について検討し,その目的は,Coxモデルが高精度であるデータの解釈可能なサブセットを見つけることである。
私たちの研究は、この特定のサブグループ問題を最初に研究し、いくつかの貢献をしました。
部分群発見法は一般に最も有利な部分群を探索し、選択するために「品質関数」を必要とする。
まず,Coxモデルのサブグループ発見問題を解くために,品質関数に対する既存の自然選択が不十分な理由について検討する。
既存の指標の欠点に対処するため,予測エントロピー(EPE)*,ハザード関数を予測するサバイバルモデルを評価する新しい指標である*条件付きランク統計(CRS)*,および既存のサブグループの生存時間分布に対する個々の点の偏差を定量化する統計オブジェクトである*条件付きランク統計(CRS)*の2つの技術革新を紹介した。
EPEとCRSを理論的に検討し、既存のメトリクスで多くの問題を解決することができることを示す。
我々は、Coxサブグループ発見問題に対して合計8つのアルゴリズムを導入する。
主アルゴリズムはEPEとCRSの両方の利点を生かすことができ、このアルゴリズムの理論的正当性を適切に設定された環境で得ることができる。
提案手法は,合成データと実データの両方で実証的に評価する。
実験により, 提案手法は, 提案手法により, 具体的な場合において, 基礎構造部分群の回復が可能であり, また, 実運用環境では, Cox モデルがデータセット全体に適用されるのに対して, モデル適合性が良好であることが確認された。
最後に,NASAのジェットエンジンシミュレーションデータについて事例研究を行った。
発見されたサブグループは、データの既知の非線形性や均一性を解明し、実際にミラーされた設計選択を示唆している。
関連論文リスト
- Learning Subgroups with Maximum Treatment Effects without Causal Heuristics [16.087398572596587]
最適部分群探索は、データ生成モデルの回復を減らし、従って標準教師付き学習問題となる。
この手法をCART(おそらく最も広く使われている木に基づく手法の1つである)でインスタンス化し、最大限の処理効果でサブグループを学習する。
論文 参考訳(メタデータ) (2025-11-25T11:13:05Z) - Group Distributionally Robust Dataset Distillation with Risk Minimization [17.05513836324578]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Analysis of Diagnostics (Part I): Prevalence, Uncertainty Quantification, and Machine Learning [0.0]
この写本は、分類理論と有病率のより深い関係を研究する二部作の最初のものである。
そこで本稿では,有病率重み付き経験誤差を最小化することにより,Bstar (q)$を推定する数値ホモトピーアルゴリズムを提案する。
合成データとSARS-CoV-2酵素結合免疫測定法(ELISA)を用いて本法の有効性を検証した。
論文 参考訳(メタデータ) (2023-08-30T13:26:49Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - UCSL : A Machine Learning Expectation-Maximization framework for
Unsupervised Clustering driven by Supervised Learning [2.133032470368051]
Subtype Discoveryは、データセットの解釈可能で一貫性のあるサブ部分を見つけることで構成される。
UCSL (Unsupervised Clustering driven by Supervised Learning) という汎用的な期待最大化アンサンブルフレームワークを提案する。
我々の手法は汎用的であり、任意のクラスタリング手法を統合することができ、バイナリ分類と回帰の両方によって駆動することができる。
論文 参考訳(メタデータ) (2021-07-05T12:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。