論文の概要: Examining properness in the external validation of survival models with squared and logarithmic losses
- arxiv url: http://arxiv.org/abs/2212.05260v2
- Date: Mon, 3 Jun 2024 10:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 23:45:37.326893
- Title: Examining properness in the external validation of survival models with squared and logarithmic losses
- Title(参考訳): 正方形・対数的損失を有する生存モデルの外部検証における正当性の検討
- Authors: Raphael Sonabend, John Zobolas, Philipp Kopper, Lukas Burk, Andreas Bender,
- Abstract要約: 我々は、適切に主張される一般的な採点規則が、例えばISBS(Integrated Survival Brier Score)のような実際不適切なものであることを証明している。
適正性の違いにもかかわらず、シミュレーションと実世界のデータセットの実験では、ISBSの不適切なバージョンと適切なバージョンの間に大きな違いは見られない。
損失の微妙な違いでさえ、モデルチューニングのような自動化プロセスにおいて重要な意味を持つ可能性があるため、適切なスコアリングルールの使用を引き続き主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scoring rules promote rational and honest decision-making, which is becoming increasingly important for automated procedures in `auto-ML'. In this paper we survey common squared and logarithmic scoring rules for survival analysis and determine which losses are proper and improper. We prove that commonly utilised squared and logarithmic scoring rules that are claimed to be proper are in fact improper, such as the Integrated Survival Brier Score (ISBS). We further prove that under a strict set of assumptions a class of scoring rules is strictly proper for, what we term, `approximate' survival losses. Despite the difference in properness, experiments in simulated and real-world datasets show there is no major difference between improper and proper versions of the widely-used ISBS, ensuring that we can reasonably trust previous experiments utilizing the original score for evaluation purposes. We still advocate for the use of proper scoring rules, as even minor differences between losses can have important implications in automated processes such as model tuning. We hope our findings encourage further research into the properties of survival measures so that robust and honest evaluation of survival models can be achieved.
- Abstract(参考訳): Scoring rulesは合理的で誠実な意思決定を促進する。
本稿では,生存分析のための共通二乗法および対数法則を調査し,どの損失が適切で不適切なかを判定する。
一般に用いられている正方形および対数的スコアリングルールは、ISBS(Integrated Survival Brier Score)など、実際は不適切であることを示す。
さらに、厳密な仮定の下では、スコアリングルールのクラスは、我々が言うところの「近似的」生存損失に対して厳密に適切なものであることを証明します。
適正性の違いにもかかわらず、シミュレーションと実世界のデータセットによる実験では、広く使われているISBSの不適切なバージョンと適切なバージョンの間に大きな違いがないことが示され、評価のために元のスコアを利用した以前の実験を合理的に信頼することができる。
損失の微妙な違いでさえ、モデルチューニングのような自動化プロセスにおいて重要な意味を持つ可能性があるため、適切なスコアリングルールの使用を引き続き主張する。
本研究の成果は, 生存モデルに対する頑健かつ誠実な評価が達成できるように, 生存対策の特性に関するさらなる研究を奨励するものであることを願っている。
関連論文リスト
- Language Generation with Strictly Proper Scoring Rules [70.340673452404]
本稿では,非局所的なスコアリングルールを用いた言語モデリングが可能な,スコアリングルールを言語生成に適用するための戦略を提案する。
対数スコアの代替として、ブライアスコアと球面スコアの2つの古典的厳密なスコアルールを用いて言語生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-29T09:09:00Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Robust Linear Regression: Phase-Transitions and Precise Tradeoffs for
General Norms [29.936005822346054]
線形回帰モデルに対するテスト時間逆行攻撃の影響について検討する。
標準予測性能(正確性)の所定のレベルを維持しながら、どのモデルでも到達できる最適なロバストネスのレベルを決定する。
我々は、標準的な精度を損なうことなく、ロバスト性が達成可能なレジームと、トレードオフが避けられないレジームとを区別する正確なキャラクタリゼーションを得る。
論文 参考訳(メタデータ) (2023-08-01T13:55:45Z) - Large Class Separation is not what you need for Relational
Reasoning-based OOD Detection [12.578844450586]
Out-Of-Distribution (OOD) 検出法はセマンティックノベルティを識別して解を提供する。
これらの手法の多くは、既知のデータの学習段階を利用しており、これは正規性の概念を捉えるためのモデル(または微調整)を訓練することを意味する。
実行可能な代替手段は、大きな事前訓練されたモデルによって生成された埋め込み空間の類似性を評価することであり、それ以上の学習は行わない。
論文 参考訳(メタデータ) (2023-07-12T14:10:15Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Evaluating AI systems under uncertain ground truth: a case study in
dermatology [44.80772162289557]
本稿では,アノテーションの不確実性を測定するための指標を提案し,評価のための不確実性調整指標を提案する。
本稿では,本フレームワークを皮膚条件分類に応用した症例スタディとして,アノテーションを診断の形で提供した画像について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - An Effective Meaningful Way to Evaluate Survival Models [34.21432603301076]
実際には、テストセットには検閲された個人が含まれています。
本稿では,現実的な半合成サバイバルデータセットを生成するための,新しい効果的なアプローチを提案する。
提案手法では,モデルの性能に基づいて精度の高いランク付けが可能であり,しばしば真のMAEと密接に一致している。
論文 参考訳(メタデータ) (2023-06-01T23:22:46Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Arbitrariness and Social Prediction: The Confounding Role of Variance in
Fair Classification [31.392067805022414]
異なる訓練されたモデル間での予測のばらつきは、公正なバイナリ分類における重要な、未探索のエラーの原因である。
実際には、いくつかのデータ例のばらつきは非常に大きいので、決定を効果的に任意にすることができる。
予測が任意である場合に分類を省略するアンサンブルアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-27T06:52:04Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Don't Just Blame Over-parametrization for Over-confidence: Theoretical
Analysis of Calibration in Binary Classification [58.03725169462616]
理論上は、過剰パラメトリゼーションは過剰信頼の唯一の理由ではない。
我々は、ロジスティック回帰は本質的に信頼過剰であり、実現可能で、非パラメータな設定であることを示す。
おそらく驚くことに、過剰な信頼が常にそうであるとは限らないことも示します。
論文 参考訳(メタデータ) (2021-02-15T21:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。