論文の概要: A Large-Scale Neutral Comparison Study of Survival Models on Low-Dimensional Data
- arxiv url: http://arxiv.org/abs/2406.04098v1
- Date: Thu, 6 Jun 2024 14:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:40:14.319359
- Title: A Large-Scale Neutral Comparison Study of Survival Models on Low-Dimensional Data
- Title(参考訳): 低次元データの生存モデルに関する大規模中性比較研究
- Authors: Lukas Burk, John Zobolas, Bernd Bischl, Andreas Bender, Marvin N. Wright, Raphael Sonabend,
- Abstract要約: この研究は、単一イベント、右検閲、低次元生存データに焦点を当てた最初の大規模な中性ベンチマーク実験を示す。
我々は、32の公開データセット上で、古典的な統計的アプローチから多くの一般的な機械学習手法まで、18のモデルをベンチマークした。
- 参考スコア(独自算出の注目度): 7.199059106376138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents the first large-scale neutral benchmark experiment focused on single-event, right-censored, low-dimensional survival data. Benchmark experiments are essential in methodological research to scientifically compare new and existing model classes through proper empirical evaluation. Existing benchmarks in the survival literature are often narrow in scope, focusing, for example, on high-dimensional data. Additionally, they may lack appropriate tuning or evaluation procedures, or are qualitative reviews, rather than quantitative comparisons. This comprehensive study aims to fill the gap by neutrally evaluating a broad range of methods and providing generalizable conclusions. We benchmark 18 models, ranging from classical statistical approaches to many common machine learning methods, on 32 publicly available datasets. The benchmark tunes for both a discrimination measure and a proper scoring rule to assess performance in different settings. Evaluating on 8 survival metrics, we assess discrimination, calibration, and overall predictive performance of the tested models. Using discrimination measures, we find that no method significantly outperforms the Cox model. However, (tuned) Accelerated Failure Time models were able to achieve significantly better results with respect to overall predictive performance as measured by the right-censored log-likelihood. Machine learning methods that performed comparably well include Oblique Random Survival Forests under discrimination, and Cox-based likelihood-boosting under overall predictive performance. We conclude that for predictive purposes in the standard survival analysis setting of low-dimensional, right-censored data, the Cox Proportional Hazards model remains a simple and robust method, sufficient for practitioners.
- Abstract(参考訳): この研究は、単一イベント、右検閲、低次元生存データに焦点を当てた最初の大規模中性ベンチマーク実験を示す。
ベンチマーク実験は、科学的に新しいモデルクラスと既存のモデルクラスを適切な経験的評価によって比較するために、方法論研究において不可欠である。
現存するサバイバル文献のベンチマークはしばしばスコープが狭く、例えば高次元データに焦点が当てられている。
さらに、適切なチューニングや評価手順が欠如している場合や、定量的比較よりも質的なレビューがある場合もあります。
この包括的研究は、幅広い手法を中立的に評価し、一般化可能な結論を提供することによってギャップを埋めることを目的としている。
我々は、32の公開データセット上で、古典的な統計的アプローチから多くの一般的な機械学習手法まで、18のモデルをベンチマークした。
ベンチマークは、異なる設定でパフォーマンスを評価するために、判別基準と適切なスコアリングルールの両方をチューニングする。
8つのサバイバル指標を評価し, 評価, キャリブレーション, 総合的な予測性能を評価した。
判別手法を用いることで、Coxモデルよりも優れた手法が存在しないことが分かる。
しかし、(調整された)高速化された失敗時間モデルは、右の検閲されたログライクな状態によって測定された全体的な予測性能に関して、はるかに優れた結果を得ることができた。
比較できる限りよく実行される機械学習手法には、識別対象の斜めランダムサバイバルフォレストや、全体的な予測性能に基づくコックスベースの可能性ブースティングがある。
我々は、低次元の右チャージされたデータの標準生存分析設定における予測的目的のために、Cox Proportional Hazardsモデルは、実践者にとって十分な単純で堅牢な方法のままである、と結論付けた。
関連論文リスト
- DRoP: Distributionally Robust Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - An Effective Meaningful Way to Evaluate Survival Models [34.21432603301076]
実際には、テストセットには検閲された個人が含まれています。
本稿では,現実的な半合成サバイバルデータセットを生成するための,新しい効果的なアプローチを提案する。
提案手法では,モデルの性能に基づいて精度の高いランク付けが可能であり,しばしば真のMAEと密接に一致している。
論文 参考訳(メタデータ) (2023-06-01T23:22:46Z) - Benchmarking common uncertainty estimation methods with
histopathological images under domain shift and label noise [62.997667081978825]
リスクの高い環境では、深層学習モデルは不確実性を判断し、誤分類の可能性がかなり高い場合に入力を拒否しなければなりません。
我々は,全スライド画像の分類において,最もよく使われている不確実性と頑健さの厳密な評価を行う。
我々は一般的に,手法のアンサンブルが,ドメインシフトやラベルノイズに対するロバスト性の向上とともに,より良い不確実性評価につながることを観察する。
論文 参考訳(メタデータ) (2023-01-03T11:34:36Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - fAux: Testing Individual Fairness via Gradient Alignment [2.5329739965085785]
いずれの要件も持たない個別の公正性をテストするための新しいアプローチについて述べる。
提案手法は,合成データセットと実世界のデータセットの識別を効果的に行う。
論文 参考訳(メタデータ) (2022-10-10T21:27:20Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。