論文の概要: Examining marginal properness in the external validation of survival models with squared and logarithmic losses
- arxiv url: http://arxiv.org/abs/2212.05260v3
- Date: Sat, 31 May 2025 09:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.741072
- Title: Examining marginal properness in the external validation of survival models with squared and logarithmic losses
- Title(参考訳): 正方形・対数的損失を有する生存モデルの外部検証における限界固有性の検討
- Authors: Raphael Sonabend, John Zobolas, Riccardo Be Bin, Philipp Kopper, Lukas Burk, Andreas Bender,
- Abstract要約: 生存分析のための共通二乗および対数スコアリングルールを調査した。
我々は,ISBS(Integrated Survival Brier Score)とRCLL(Right-Censored Log-Likelihood)が理論的に不適切であることを示す。
我々は、RCLLとISBSの両方を、自動手順を含むモデルの外部検証で推奨する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scoring rules promote rational and honest decision-making, which is important for model evaluation and becoming increasingly important for automated procedures such as `AutoML'. In this paper we survey common squared and logarithmic scoring rules for survival analysis, with a focus on their theoretical and empirical properness. We introduce a marginal definition of properness and show that both the Integrated Survival Brier Score (ISBS) and the Right-Censored Log-Likelihood (RCLL) are theoretically improper under this definition. We also investigate a new class of losses that may inform future survival scoring rules. Simulation experiments reveal that both the ISBS and RCLL behave as proper scoring rules in practice. The RCLL showed no violations across all settings, while ISBS exhibited only minor, negligible violations at extremely small sample sizes, suggesting one can trust results from historical experiments. As such we advocate for both the RCLL and ISBS in external validation of models, including in automated procedures. However, we note practical challenges in estimating these losses including estimation of censoring distributions and densities; as such further research is required to advance development of robust and honest evaluation in survival analysis.
- Abstract(参考訳): Scoring rulesは合理的で誠実な意思決定を促進する。これはモデル評価において重要であり、‘AutoML’のような自動化手順ではますます重要になる。
本稿では、生存分析のための共通二乗及び対数スコアリングルールについて、理論的および経験的適切性に着目して調査する。
本定義では,ISBS(Integrated Survival Brier Score)とRCLL(Right-Censored Log-Likelihood)の両方が理論的に不適切であることを示す。
また、今後の生存スコアリングルールに影響を及ぼす可能性のある、新たな種類の損失についても検討する。
シミュレーション実験により、ISBSとRCLLはどちらも実際に適切なスコアリングルールとして振る舞うことが明らかとなった。
RCLLはすべての設定に違反を示さなかったが、ISBSは極端に小さなサンプルサイズで小さな無視可能な違反しか示さなかった。
そのため、RCLLとISBSの両方を、自動手順を含むモデルの外部検証で推奨する。
しかし、これらの損失を推定する上での実践的な課題として、分布と密度の検閲の推定を挙げ、生存分析における堅牢で正直な評価の進展を推し進めるためには、さらなる研究が必要であることに留意する。
関連論文リスト
- Language Generation with Strictly Proper Scoring Rules [70.340673452404]
本稿では,非局所的なスコアリングルールを用いた言語モデリングが可能な,スコアリングルールを言語生成に適用するための戦略を提案する。
対数スコアの代替として、ブライアスコアと球面スコアの2つの古典的厳密なスコアルールを用いて言語生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-29T09:09:00Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Robust Linear Regression: Phase-Transitions and Precise Tradeoffs for
General Norms [29.936005822346054]
線形回帰モデルに対するテスト時間逆行攻撃の影響について検討する。
標準予測性能(正確性)の所定のレベルを維持しながら、どのモデルでも到達できる最適なロバストネスのレベルを決定する。
我々は、標準的な精度を損なうことなく、ロバスト性が達成可能なレジームと、トレードオフが避けられないレジームとを区別する正確なキャラクタリゼーションを得る。
論文 参考訳(メタデータ) (2023-08-01T13:55:45Z) - Large Class Separation is not what you need for Relational
Reasoning-based OOD Detection [12.578844450586]
Out-Of-Distribution (OOD) 検出法はセマンティックノベルティを識別して解を提供する。
これらの手法の多くは、既知のデータの学習段階を利用しており、これは正規性の概念を捉えるためのモデル(または微調整)を訓練することを意味する。
実行可能な代替手段は、大きな事前訓練されたモデルによって生成された埋め込み空間の類似性を評価することであり、それ以上の学習は行わない。
論文 参考訳(メタデータ) (2023-07-12T14:10:15Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Evaluating AI systems under uncertain ground truth: a case study in
dermatology [44.80772162289557]
本稿では,アノテーションの不確実性を測定するための指標を提案し,評価のための不確実性調整指標を提案する。
本稿では,本フレームワークを皮膚条件分類に応用した症例スタディとして,アノテーションを診断の形で提供した画像について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - An Effective Meaningful Way to Evaluate Survival Models [34.21432603301076]
実際には、テストセットには検閲された個人が含まれています。
本稿では,現実的な半合成サバイバルデータセットを生成するための,新しい効果的なアプローチを提案する。
提案手法では,モデルの性能に基づいて精度の高いランク付けが可能であり,しばしば真のMAEと密接に一致している。
論文 参考訳(メタデータ) (2023-06-01T23:22:46Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Arbitrariness and Social Prediction: The Confounding Role of Variance in
Fair Classification [31.392067805022414]
異なる訓練されたモデル間での予測のばらつきは、公正なバイナリ分類における重要な、未探索のエラーの原因である。
実際には、いくつかのデータ例のばらつきは非常に大きいので、決定を効果的に任意にすることができる。
予測が任意である場合に分類を省略するアンサンブルアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-27T06:52:04Z) - Uncertainty Estimates of Predictions via a General Bias-Variance
Decomposition [7.811916700683125]
本稿では,適切なスコアに対するバイアス分散分解を導入し,分散項としてブレグマン情報を導出する。
モデルアンサンブルや信頼領域を含む下流タスクにおけるこの分解の実践的妥当性を示す。
論文 参考訳(メタデータ) (2022-10-21T21:24:37Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Don't Just Blame Over-parametrization for Over-confidence: Theoretical
Analysis of Calibration in Binary Classification [58.03725169462616]
理論上は、過剰パラメトリゼーションは過剰信頼の唯一の理由ではない。
我々は、ロジスティック回帰は本質的に信頼過剰であり、実現可能で、非パラメータな設定であることを示す。
おそらく驚くことに、過剰な信頼が常にそうであるとは限らないことも示します。
論文 参考訳(メタデータ) (2021-02-15T21:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。