論文の概要: Scoring rules in survival analysis
- arxiv url: http://arxiv.org/abs/2212.05260v1
- Date: Sat, 10 Dec 2022 10:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-13 18:33:12.228950
- Title: Scoring rules in survival analysis
- Title(参考訳): 生存分析におけるスコアリングルール
- Authors: Raphael Sonabend
- Abstract要約: 我々は、生存スコアリングルールに対する(厳密な)正当性の最初の明確な定義を確立する。
適切に主張される、一般的に利用されるスコアリングルールは、実際には不適切であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scoring rules promote rational and good decision making and predictions by
models, this is increasingly important for automated procedures of `auto-ML'.
The Brier score and Log loss are well-established scoring rules for
classification and regression and possess the `strict properness' property that
encourages optimal predictions. In this paper we survey proposed scoring rules
for survival analysis, establish the first clear definition of `(strict)
properness' for survival scoring rules, and determine which losses are proper
and improper. We prove that commonly utilised scoring rules that are claimed to
be proper are in fact improper. We further prove that under a strict set of
assumptions a class of scoring rules is strictly proper for, what we term,
`approximate' survival losses. We hope these findings encourage further
research into robust validation of survival models and promote honest
evaluation.
- Abstract(参考訳): Scoring rules promote rational and good decision making and predictions by models, this is increasingly important for automated procedure of ‘auto-ML'。
ブライアスコアとログロスは分類と回帰のための確立されたスコアルールであり、最適予測を促進する「限定的適切性」特性を持っている。
本稿では,サバイバル分析のためのスコアリングルールを提案し,サバイバルスコアリングルールの「(限定)適性」を初めて明確に定義し,どの損失が適切で不適切であるかを判定する。
適切に主張される一般的なスコアリングルールは、実際には不適切であることを示す。
厳密な仮定の下では、スコアリングルールのクラスは、私たちが「ほぼ」生存損失と呼ぶものに対して厳密に適切であることをさらに証明する。
これらの知見が生存モデルの堅牢な検証のさらなる研究を促し、正直な評価を促進することを願っている。
関連論文リスト
- TULiP: Test-time Uncertainty Estimation via Linearization and Weight Perturbation [11.334867025651233]
OOD検出のための理論駆動型不確実性推定器TULiPを提案する。
本手法では,収束前にネットワークに適用される仮説的摂動を考察する。
提案手法は,特に近分布試料について,最先端の性能を示す。
論文 参考訳(メタデータ) (2025-05-22T17:16:41Z) - SurvUnc: A Meta-Model Based Uncertainty Quantification Framework for Survival Analysis [8.413107141283502]
生存分析は、多くの現実世界の応用、特に医療やリスクアセスメントのような高度な領域において基礎となる。
多くの生存モデルが進歩しているにもかかわらず、予測の不確実性の定量化は未熟で困難なままである。
生存モデルのためのポストホック不確実性定量化のための新しいメタモデルベースのフレームワークであるSurvUncを紹介する。
論文 参考訳(メタデータ) (2025-05-20T18:12:20Z) - Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる
PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。
バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文 参考訳(メタデータ) (2024-08-31T11:59:42Z) - Language Generation with Strictly Proper Scoring Rules [70.340673452404]
本稿では,非局所的なスコアリングルールを用いた言語モデリングが可能な,スコアリングルールを言語生成に適用するための戦略を提案する。
対数スコアの代替として、ブライアスコアと球面スコアの2つの古典的厳密なスコアルールを用いて言語生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-29T09:09:00Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Robust Linear Regression: Phase-Transitions and Precise Tradeoffs for
General Norms [29.936005822346054]
線形回帰モデルに対するテスト時間逆行攻撃の影響について検討する。
標準予測性能(正確性)の所定のレベルを維持しながら、どのモデルでも到達できる最適なロバストネスのレベルを決定する。
我々は、標準的な精度を損なうことなく、ロバスト性が達成可能なレジームと、トレードオフが避けられないレジームとを区別する正確なキャラクタリゼーションを得る。
論文 参考訳(メタデータ) (2023-08-01T13:55:45Z) - Large Class Separation is not what you need for Relational
Reasoning-based OOD Detection [12.578844450586]
Out-Of-Distribution (OOD) 検出法はセマンティックノベルティを識別して解を提供する。
これらの手法の多くは、既知のデータの学習段階を利用しており、これは正規性の概念を捉えるためのモデル(または微調整)を訓練することを意味する。
実行可能な代替手段は、大きな事前訓練されたモデルによって生成された埋め込み空間の類似性を評価することであり、それ以上の学習は行わない。
論文 参考訳(メタデータ) (2023-07-12T14:10:15Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Evaluating AI systems under uncertain ground truth: a case study in
dermatology [44.80772162289557]
本稿では,アノテーションの不確実性を測定するための指標を提案し,評価のための不確実性調整指標を提案する。
本稿では,本フレームワークを皮膚条件分類に応用した症例スタディとして,アノテーションを診断の形で提供した画像について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - An Effective Meaningful Way to Evaluate Survival Models [34.21432603301076]
実際には、テストセットには検閲された個人が含まれています。
本稿では,現実的な半合成サバイバルデータセットを生成するための,新しい効果的なアプローチを提案する。
提案手法では,モデルの性能に基づいて精度の高いランク付けが可能であり,しばしば真のMAEと密接に一致している。
論文 参考訳(メタデータ) (2023-06-01T23:22:46Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Arbitrariness and Social Prediction: The Confounding Role of Variance in
Fair Classification [31.392067805022414]
異なる訓練されたモデル間での予測のばらつきは、公正なバイナリ分類における重要な、未探索のエラーの原因である。
実際には、いくつかのデータ例のばらつきは非常に大きいので、決定を効果的に任意にすることができる。
予測が任意である場合に分類を省略するアンサンブルアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-27T06:52:04Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Uncertainty Estimates of Predictions via a General Bias-Variance
Decomposition [7.811916700683125]
本稿では,適切なスコアに対するバイアス分散分解を導入し,分散項としてブレグマン情報を導出する。
モデルアンサンブルや信頼領域を含む下流タスクにおけるこの分解の実践的妥当性を示す。
論文 参考訳(メタデータ) (2022-10-21T21:24:37Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Don't Just Blame Over-parametrization for Over-confidence: Theoretical
Analysis of Calibration in Binary Classification [58.03725169462616]
理論上は、過剰パラメトリゼーションは過剰信頼の唯一の理由ではない。
我々は、ロジスティック回帰は本質的に信頼過剰であり、実現可能で、非パラメータな設定であることを示す。
おそらく驚くことに、過剰な信頼が常にそうであるとは限らないことも示します。
論文 参考訳(メタデータ) (2021-02-15T21:38:09Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。